Projekt podpořil Úřad vlády ČR a byl řešen v roce 2022.
Projekt si kladl za cíl shromáždit digitální zdroje s texty v romštině a češtině. Konkrétním krokem v tomto směru pak bylo vytvoření digitálního korpusu romštiny, jehož zpracování by výhledově mohlo umožnit tvorbu strojového překladače mezi romštinou a češtinou nebo i dalšími jazyky. Korpus byl vytvořen a jeho dílčí část je zpřístupněna na tomto webu (viz níže). V souvislosti s tvorbou korpusu byla provedena rešerše stávajících a nových jazykových zdrojů, některé byly nově digitalizovány. Dále byla sepsána případová studie o možnostech tvorby strojových překladačů umožňujících využití umělé inteligence a tzv. neuronových sítí.
V současné fázi projektu slouží jako zdroj jazykových dat pro vyhledávací rozhraní čtyři glosáře, které obsahují východoslovenskou severocentrální romštinu, a dále dva texty v severocentrální romštině. Kromě toho byly v rámci projektu vytvořeny další čtyři databáze (A, C, D, E), které reprezentují severocentrální romštinu (převážně východoslovenské provenience) a rumunské variety kalderaštiny.
Vyhledávaný řetězec (dotaz) musí obsahovat alespoň tři znaky.