Jazyková data pro technologie k revitalizaci romštiny

Neinvestiční dotace v programu Úřadu vlády ČR Podpora implementace Evropské charty regionálních či menšinových jazyků pro rok 2022

Sběr a zpracování jazykových dat s cílem vytvořit jazykové technologie pro revitalizaci romštiny

 

Projekt podpořil Úřad vlády ČR a byl řešen v roce 2022.

Anotace projektu

Projekt si kladl za cíl shromáždit digitální zdroje s texty v romštině a češtině. Konkrétním krokem v tomto směru pak bylo vytvoření digitálního korpusu romštiny, jehož zpracování by výhledově mohlo umožnit tvorbu strojového překladače mezi romštinou a češtinou nebo i dalšími jazyky. Korpus byl vytvořen a jeho dílčí část je zpřístupněna na tomto webu (viz níže). V souvislosti s tvorbou korpusu byla provedena rešerše stávajících a nových jazykových zdrojů, některé byly nově digitalizovány. Dále byla sepsána případová studie o možnostech tvorby strojových překladačů umožňujících využití umělé inteligence a tzv. neuronových sítí.

Řešitel

  • PhDr. Bc. Tomáš Svoboda, PhD.

Spoluřešitel

  • Mgr. Zbyněk Andrš, Ph.D.

Spolupracující osoby

  • PhDr. Ruben Pellar, PhD.
  • Bc. Aneta Balejová

Výstupy projektu – studie

Výstupy projektu – prohledávací rozhraní

 

V současné fázi projektu slouží jako zdroj jazykových dat pro vyhledávací rozhraní čtyři glosáře, které obsahují východoslovenskou severocentrální romštinu, a dále dva texty v severocentrální romštině. Kromě toho byly v rámci projektu vytvořeny další čtyři databáze (A, C, D, E), které reprezentují severocentrální romštinu (převážně východoslovenské provenience) a rumunské variety kalderaštiny.

Vyhledávaný řetězec (dotaz) musí obsahovat alespoň tři znaky.

Úvod > Věda a výzkum > Projekty > Jazyková data pro technologie k revitalizaci romštiny