Pereiti prie turinio

KTU mokslininkė: dėl DI vertėjai ir kalbininkai yra ir bus prestižinė profesija

Svarbiausios | 2025-07-09

KTU Socialinių, humanitarinių mokslų ir menų fakulteto (SHMMF) doc. dr. Dainora Maumevičienė 

Kai 2022 metais pasirodė generatyviniai dirbtinio intelekto (DI) įrankiai, daugelis ėmė skubotai prognozuoti, kad vertėjų ir kalbininkų profesijos greitai taps nereikalingos. Tačiau realybė pasirodė esanti gerokai sudėtingesnė ir įdomesnė – būtent dėl DI sparčios plėtros kalbos ir vertimo specialistų svarba išaugo kaip niekad anksčiau.

Kodėl taip nutiko? Kaip kalba susijusi su dirbtiniu intelektu, ir kodėl lietuvių kalba vis dar lieka iššūkiu net pažangiausiems modeliams? Šiame straipsnyje išsklaidysime mitus apie nykstančias profesijas, atskleisime, kaip iš tikrųjų veikia kalbinės DI sistemos, ir įrodysime, kodėl kalbininkų, vertėjų ir jų turimų kompetencijų poreikis ne tik nemažėja – jis tampa strateginiu visuomenės ir technologijų raidos pagrindu.

DI kalbos industrijoje ir vertime – ne naujiena

Pirmiausia verta pabrėžti, kad DI kalbos ir vertimo industrijoje nėra naujas reiškinys. Nors generatyviniai DI įrankiai pristatyti ir tapo prieinami plačiajai visuomenei 2022 m., o pirmieji sprendimai buvo pristatyti ir testuojami dar 2018 m., vertimo ir kalbos industrija gyvena su dirbtiniu intelektu jau nuo 1948-ųjų, kai pradėtos kurti tiek mašininio vertimo sistemos, tiek kalbą apdorojančios technologijos.

Tiesa, tuo metu terminas „dirbtinis intelektas“ dar nebuvo vartojamas, tačiau jau tuomet kuriami vertimo įrankiai, ypač mašininio vertimo sistemos, kėlė panašius klausimus ir vilčių, kad vertėjai ir kalbos specialistai bus nereikalingi.

Per dešimtmečius tobulintos statistinės, taisyklėmis grindžiamos ar pavyzdžiais paremtos mašininio vertimo sistemos, o vėliau ir neuroniniais tinklais veikiantys įrankiai ne tik neišstūmė vertėjų profesijos, bet netgi pabrėžė jos svarbą, ypač kai kalbama apie aukštos kokybės produktus, tekstus, tinklalapius ar kt.

KTU docentė dr. Dainora Maumevičienė
KTU docentė dr. Dainora Maumevičienė

Kalba – itin sudėtinga, nuolat besikeičianti sistema, kurios neįmanoma aprašyti tiksliai vien algoritmais. Terminai nuolat kinta, keičiasi jų reikšmė, vartosena ir semantinis laukas, o kultūriniai kontekstai dažnai lieka nesuprasti tiek mašininiam vertimui, tiek dabartiniams DI sprendimams.

Be to, generatyviniai įrankiai yra apmokyti, perkuria ir imituoja iki tam tikro momento X sukauptus duomenis, tad jų pateikiama informacija dažnai nėra nei savalaikė, nei kalbiškai tiksli. Dėl to DI, nepaisant pažangos, šioje srityje vis dar priklauso nuo žmogaus kalbinės kompetencijos.

Viskas vienaip ar kitaip perteikiama kalba

Dažnai pamirštamas svarbus aspektas – nepriklausomai nuo sričių, kuriose taikomi ar bus taikomi dirbtinio intelekto sprendimai (pvz., aplinką suprantantis dirbtinis intelektas, angl. ambient intelligence, naudojamas sveikatos apsaugos srityje), viskas vienaip ar kitaip perteikiama per kalbą.

Pavyzdžiui, „Microsoft“ sukurtas produktas „Dragon Copilot“ padeda skaitmenizuoti pacientų nusiskundimus, išsakytus dialogo metu su gydytoju, ir net vizualizuoti skaudamas vietas. Taip pat įvairūs sprendimai taikomi gamyboje, tačiau visais atvejais rezultatas turi būti aprašomas kalba.

Nors duomenys gali būti fiksuojami įvairiomis formomis – garsu, vaizdu, rentgeno nuotraukomis, echoskopija, tekstu ar schema – galutinis jų interpretavimas, sisteminimas ir perteikimas vyksta kalba. Todėl čia labai svarbios kalbininkų ir vertėjų kompetencijos: norint tiksliai aprašyti ir apibūdinti informaciją, reikia gebėti teisingai anotuoti žodžius, parinkti ar susieti žodžius, sąvokas, vaizdinius ir pan., sudaryti teisingus semantinius žodžių žemėlapius, atrinkti svarbiausią esminę informaciją, pašalinti informacines šiukšles ir pan.

Be to, kad DI generatyviniais įrankiais perkurtas rezultatas būtų patikimas, būtina turėti sukauptus didelius kiekius suskaitmenintų kalbinių (ir ne tik) duomenų tam tikra kalba. Tokiu pagrindu ir yra kuriami didieji kalbų modeliai (angl. Large Language Models, LLM). Deja, tokių modelių lietuvių kalbai, kaip ir daugeliui kitų Europos kalbų, tokių kaip latvių, estų ar net lenkų, kol kas dar nėra sukurta.

Dabartiniai DI sprendimai ir didieji kalbos modeliai orientuoti į anglų kalbą

Šiuo metu dažniausiai pasitelkiami DI įrankiai yra grindžiami didžiaisiais kalbų modeliais, kurie beveik išimtinai – 90 proc. yra skirti ir pritaikyti didžiosioms pasaulio kalboms, tokioms kaip anglų, kinų ar arabų. Mažesnės Europos kalbos, tarp jų lietuvių, slovėnų, čekų ar portugalų, vis dar lieka nuošalyje. Joms pritaikytų modelių arba visai nėra, arba jie tik pradedami kurti. Lietuvių kalbai pritaikyto didelės kalbos modelio iki šiol nėra, o kalbinių duomenų kiekis išlieka labai ribotas.

Asociatyvi nuotrauka
Asociatyvi nuotrauka

Dažnai teigiama, kad tokie įrankiai kaip ChatGPT, „Gemini“ ar kiti generatyviniai DI sprendimai „puikiai“ veikia ir lietuvių kalba. Derėtų prisiminti ir tai, kad minėti įrankiai nesugeneruoja nieko naujo, o tik perkuria kitaip ir imituoja tai, kuo buvo apmokyti. Taip pat pamirštama ir tai, kad šie įrankiai iš esmės sukurti anglų kalbos pagrindu ir apmokyti anglų kalbos duomenimis. Be to, minėti įrankiai dažnai neatitinka Europos Sąjungoje galiojančių teisinių ir etinių standartų, pavyzdžiui, susijusių su asmens duomenų apsauga, autorinėmis teisėmis ar intelektine nuosavybe. Net jei sugeneruotas tekstas atrodo nuoseklus ir rišlus, tai dar nereiškia, kad jis teisingas ar patikimas turinio prasme. Dažnu atveju lietuvių kalba perkurtuose tekstuose yra nepaisoma lietuvių kalbos normų, gramatikos ar stilistikos.

Šią situaciją iliustruoja ir pavyzdys su lenkų kalba. Nors lenkų kalba pasaulyje kalba apie 40 milijonų žmonių, net ir šiai kalbai vis dar nėra sukurto didelės kalbos modelio. Iki šiol suskaitmeninta vos 0,09 proc. reikalingų išteklių lenkų kalba, o modelis BIELIK-11vB-v2 (bielik.ai), skirtas šiai kalbai, dar tik pradėtas vystyti. Tai leidžia lengvai suprasti, kokia sudėtinga ir atsilikusi situacija yra su lietuvių kalba dirbtinio intelekto kontekste.

Lietuvių kalbos modelis dar tik kuriamas

Nepaisant pastaraisiais metais intensyvėjančių mokslininkų, valstybinių institucijų ir kalbos industrijos atstovų pastangų, lietuvių kalbai skirtas didelės kalbos modelis iki šiol nėra sukurtas.

Kaip buvo akcentuota konferencijoje „Kalba dirbtinio intelekto amžiuje. LTech 2025“, vykusioje 2025 m. gegužės 8–9 d. KTU, šiuo metu tik pradedamas kurti galingas atvirojo kodo kalbos modelis „TildėLM“, skirtas Baltijos ir kitoms mažosioms Europos kalboms.

„TildėLM“ – tai bendras atsakas į opią problemą: daugelis mažųjų Europos Sąjungos kalbų, tokių kaip lietuvių, latvių, estų, slovėnų ar slovakų, iki šiol buvo paliktos nuošalyje dirbtinio intelekto vystymo procese. Kaip pažymėjo konferencijos plenarinio pranešimo metu įmonės „Tildė“ – vienos didžiausių kalbos technologijų kūrėjų Baltijos šalyse – generalinė direktorė Renata Špukienė, šia iniciatyva siekiama užpildyti minėtą spragą, suteikiant mažoms kalboms prieigą prie kokybiškų DI sprendimų.

Šiuo metu generatyviniai įrankiai dažnai nepasižymi nei nuoseklumu, nei tikslumu ar kokybe, kai kalbama apie mažąsias kalbas – kyla semantinių netikslumų, o kultūrinis kontekstas dažnai iškraipomas arba ignoruojamas. Todėl sėkmingam tokio modelio, kaip „TildėLM“, sukūrimui reikalingos ne tik vertėjų ir lingvistų žinios, bet ir glaudus bendradarbiavimas su programuotojais bei inžinieriais.

„TildėLM“ modelio mokymas pradėtas 2025 m. kovo mėnesį, o pasibaigus šiam etapui, modeliu naudotis galės ne tik įmonės, bet ir plačioji visuomenė.

Europos Komisijos pastangos kurti ir taikyti dirbtinio intelekto įrankius

Europos Komisija (EK) skiria daug dėmesio dirbtinio intelekto (DI) įrankiams kurti ir taikyti, siekdama spartinti įvairius procesus bei užtikrinti Europos konkurencingumą pasauliniu mastu, ypač atsižvelgiant į JAV sukurtų DI įrankių dominavimą rinkoje.

Pastaraisiais metais EK komunikatuose vis dažniau pabrėžiama ambicija kurti didelio masto dirbtinio intelekto centrus visoje Europoje. Kartu visuomenei ir institucijoms jau pristatyta keletas praktinių įrankių, skirtų kasdieniam naudojimui. Tarp jų:

  • „eTranslation“ – DI pagrindu veikianti vertimo sistema, skirta Europos kalboms;
  • „WebText“ – įrankis, pritaikantis svetainių turinį anglų, vokiečių ir prancūzų kalbomis, kad tekstas tiktų tinklalapiams;
  • „Speech-to-Text“ – garso įrašų transkripcijos įrankis, sakytinę kalbą keičiantis rašytine;
  • „Accessible Text“ – įranktis, skirtas pritaikyti tekstą platesniam skaitytojų ratui;
  • „eBriefing“ – ataskaitų generavimo įrankis, leidžiantis automatizuotai apdoroti, apibendrinti ir nuasmeninti oficialius dokumentus ir parengti ataskaitas;
  • „eSummary“ – skirtas kurti santraukas bei išskirti pagrindinę informaciją iš ilgų teisinių tekstų, taip pat nuasmeninti duomenis.
Doc. dr. Dainora Maumevičienė
Doc. dr. Dainora Maumevičienė

Šių įrankių bendras bruožas – jie sukurti atsižvelgiant į Europos kalbų specifiką bei atitinka ES taikomus kokybės, duomenų apsaugos ir saugumo standartus. Tokiu būdu Europos Komisija siekia užtikrinti, kad DI sprendimai būtų ne tik veiksmingi, bet ir etiški bei teisiškai saugūs.

Profesijos išlieka svarbios ir prestižinės DI eroje

Kaip matyti, Europos mastu šiuo metu dedama daug pastangų kuriant kokybiškus dirbtinio intelekto sprendimus, pritaikytus tiek mažosioms, tiek didžiosioms kalboms. Šie sprendimai ne tik atliepia praktinius poreikius ir atitinka ES standartus, bet ir siekia įtvirtinti Europą kaip technologijų ir dirbtinio intelekto lyderę.

Didelės investicijos į DI, kuriami specializuoti centrai bei spartus technologijų vystymasis tik dar labiau pabrėžia humanitarinių mokslų, ypač kalbos ir vertimo specialistų, svarbą. Vertėjų ir lingvistų profesijos išlieka itin reikalingos, nes būtent šie specialistai turi gebėjimų, be kurių negalima kurti ir taikyti patikimų DI sprendimų kalbos srityje.

Svarbios tampa tokios kompetencijos kaip gebėjimas analizuoti tekstus, atpažinti žodžių tarpusavio sąryšius, semantines reikšmes, efektyviai apibendrinti ilgesnį turinį, kūrybiškai generuoti tekstus skirtingoms platformoms. Taip pat ypač reikšmingi yra analitiniai ir kritinio mąstymo gebėjimai, leidžiantys vertinti tiek dirbtinio intelekto sugeneruotą, tiek žmogaus parašytą tekstą pagal kalbos, stilistikos ar semantikos principus. Kalbinis raštingumas taip pat leidžia greitai identifikuoti žmogaus ir mašinos sukurtą tekstą.

Šios kompetencijos įgyjamos studijų metu ir yra esminės šiuolaikinėje informacijos visuomenėje, ypač dabar, kai pastebimas bendrojo raštingumo lygio mažėjimas. Tai dar labiau pabrėžia humanitarinių profesijų vertę DI eroje – jos ne nyksta, o tampa dar aktualesnės.