Dažnai teigiama, kad tokie įrankiai kaip ChatGPT, „Gemini“ ar kiti generatyviniai DI sprendimai „puikiai“ veikia ir lietuvių kalba. Derėtų prisiminti ir tai, kad minėti įrankiai nesugeneruoja nieko naujo, o tik perkuria kitaip ir imituoja tai, kuo buvo apmokyti. Taip pat pamirštama ir tai, kad šie įrankiai iš esmės sukurti anglų kalbos pagrindu ir apmokyti anglų kalbos duomenimis. Be to, minėti įrankiai dažnai neatitinka Europos Sąjungoje galiojančių teisinių ir etinių standartų, pavyzdžiui, susijusių su asmens duomenų apsauga, autorinėmis teisėmis ar intelektine nuosavybe. Net jei sugeneruotas tekstas atrodo nuoseklus ir rišlus, tai dar nereiškia, kad jis teisingas ar patikimas turinio prasme. Dažnu atveju lietuvių kalba perkurtuose tekstuose yra nepaisoma lietuvių kalbos normų, gramatikos ar stilistikos.
Šią situaciją iliustruoja ir pavyzdys su lenkų kalba. Nors lenkų kalba pasaulyje kalba apie 40 milijonų žmonių, net ir šiai kalbai vis dar nėra sukurto didelės kalbos modelio. Iki šiol suskaitmeninta vos 0,09 proc. reikalingų išteklių lenkų kalba, o modelis BIELIK-11vB-v2 (bielik.ai), skirtas šiai kalbai, dar tik pradėtas vystyti. Tai leidžia lengvai suprasti, kokia sudėtinga ir atsilikusi situacija yra su lietuvių kalba dirbtinio intelekto kontekste.
Lietuvių kalbos modelis dar tik kuriamas
Nepaisant pastaraisiais metais intensyvėjančių mokslininkų, valstybinių institucijų ir kalbos industrijos atstovų pastangų, lietuvių kalbai skirtas didelės kalbos modelis iki šiol nėra sukurtas.
Kaip buvo akcentuota konferencijoje „Kalba dirbtinio intelekto amžiuje. LTech 2025“, vykusioje 2025 m. gegužės 8–9 d. KTU, šiuo metu tik pradedamas kurti galingas atvirojo kodo kalbos modelis „TildėLM“, skirtas Baltijos ir kitoms mažosioms Europos kalboms.
„TildėLM“ – tai bendras atsakas į opią problemą: daugelis mažųjų Europos Sąjungos kalbų, tokių kaip lietuvių, latvių, estų, slovėnų ar slovakų, iki šiol buvo paliktos nuošalyje dirbtinio intelekto vystymo procese. Kaip pažymėjo konferencijos plenarinio pranešimo metu įmonės „Tildė“ – vienos didžiausių kalbos technologijų kūrėjų Baltijos šalyse – generalinė direktorė Renata Špukienė, šia iniciatyva siekiama užpildyti minėtą spragą, suteikiant mažoms kalboms prieigą prie kokybiškų DI sprendimų.
Šiuo metu generatyviniai įrankiai dažnai nepasižymi nei nuoseklumu, nei tikslumu ar kokybe, kai kalbama apie mažąsias kalbas – kyla semantinių netikslumų, o kultūrinis kontekstas dažnai iškraipomas arba ignoruojamas. Todėl sėkmingam tokio modelio, kaip „TildėLM“, sukūrimui reikalingos ne tik vertėjų ir lingvistų žinios, bet ir glaudus bendradarbiavimas su programuotojais bei inžinieriais.
„TildėLM“ modelio mokymas pradėtas 2025 m. kovo mėnesį, o pasibaigus šiam etapui, modeliu naudotis galės ne tik įmonės, bet ir plačioji visuomenė.
Europos Komisijos pastangos kurti ir taikyti dirbtinio intelekto įrankius
Europos Komisija (EK) skiria daug dėmesio dirbtinio intelekto (DI) įrankiams kurti ir taikyti, siekdama spartinti įvairius procesus bei užtikrinti Europos konkurencingumą pasauliniu mastu, ypač atsižvelgiant į JAV sukurtų DI įrankių dominavimą rinkoje.
Pastaraisiais metais EK komunikatuose vis dažniau pabrėžiama ambicija kurti didelio masto dirbtinio intelekto centrus visoje Europoje. Kartu visuomenei ir institucijoms jau pristatyta keletas praktinių įrankių, skirtų kasdieniam naudojimui. Tarp jų: