DVB Portal

Očuvanje europske jezične i kulturne raznolikosti u eri umjetne inteligencije

U suradnji s francuskim Ministarstvom kulture i tvrtkom Iconem,Microsoft će izraditi digitalnu repliku pariške katedrale Notre Dame [Izvor: Pixabay]

Europa je domovina više od 200 jezika i bogate kulturne baštine nastale tijekom nekoliko tisuća godina. Milijuni sačuvanih kulturnih dobara pričaju priču o europskim narodima. No, veliki dio europske jezične i kulturne raznolikosti ugrožen je digitalizacijom jer je većina internetskog sadržaja – primarnog izvora podataka za treniranje današnjih velikih jezičnih modela (LLM) – na engleskom jeziku. Štoviše, veliki dio tog sadržaja odražava američku perspektivu.

Europska komisija upozorila je da takva neravnoteža nije samo kulturni, nego i komercijalni problem. Umjetna inteligencija koja ne razumije europske jezike, povijest i vrijednosti ne može u potpunosti služiti njezinim ljudima, tvrtkama niti pridonijeti europskoj budućnosti.

Microsoft je stoga pokrenuo dvije nove inicijative usmjerene na to da europski jezici i kultura budu dostupniji. Te inicijative nadovezuju se na najave o proširenju infrastrukture koja podržava AI i računalstvo u oblaku, o jačanju digitalne otpornosti i zaštite privatnosti podataka, poboljšanju kibernetičke sigurnosti te podršci europskom digitalnom suverenitetu i široj ekonomiji, napisao je u kompanijskom blogu operativni predsjednik i potpredsjednik Upravnog odbora Microsofta Brad Smith.

Inovacijski centri za podršku jezičnoj raznolikosti

Microsoft u Strasbourgu osniva dva inovacijska centra koji će primjenom njihove tehnologije, znanja i partnerstava pomagati da veliki jezični modeli na kojima se temelji razvoj umjetne inteligencije bolje razumiju i odražavaju jezičnu raznolikost Europe te da tako digitalizirana europska jezična i kulturna baština bude dostupnija.

Microsoft poziva na digitalizaciju sadržaja na deset europskih jezika (ne specificirajući o kojim je jezicima riječ), kako bi se skup podataka za treniranje AI-ja obogatio raznolikim jezičnim materijalima.

Također su najavili proširenje postojeće inicijative Culture AI, u sklopu koje kompanija pomaže u očuvanju europskih jezika, znamenitosti i artefakata putem digitalnih replika i digitalizacije podataka.

Dosadašnji projekti uključuju digitalne rekonstrukcije antičke Olimpije, Mont-Saint-Michela i bazilike svetog Petra u Rimu. Sljedeći veliki projekt bit će izrada digitalna replika katedrale Notre Dame, nedavno obnovljenog, 862 godine starog pariškog gotičkog remek-djela. Projekt će se provesti u suradnji s francuskim Ministarstvom kulture i tvrtkom Iconem, specijaliziranom za 3D digitalizaciju kulturne baštine.

Europska jezična baština

U sklopu podrške europskoj jezičnoj baštini, Microsoft istuče da sustav Windows podržava više od 90 jezika, uključujući sve službene jezike Europske unije, ali i jezike poput baskijskog, katalonskog, galicijskog, luksemburškog, valencijskog i drugih. Microsoft 365 također ima širok doseg, s podrškom putem Office aplikacija na više od 30 europskih jezika, uključujući sve službene jezike Europske unije.

Europska unija ima 24 službena jezika, uz desetke jezika priznatih na nacionalnoj ili regionalnoj razini. Mnogi od tih jezika – čak i neki od službenih jezika EU-a poput danskog, švedskog i grčkog – predstavljaju manje od 0,6 posto internetskog sadržaja. Jezici poput malteškog, irskog, estonskog, latvijskog i slovenskog, jedva su vidljivi na internetu. Iako samo 5 posto svjetske populacije govori engleski kao prvi jezik, engleski tekst čini polovicu internetskog sadržaja, dominirajući podacima koji se koriste za obuku AI modela.

Mnogi jezici s dubokom kulturnim korijenima, poput bretonskog, okcitanskog i retroromaskog, koje UNESCO klasificira kao ugrožene, gotovo uopće nisu podržani u današnjim mainstream AI sustavima.

Ova digitalna marginaliziranost ima velike posljedice, jer se jezični modeli prilikom učenja uvelike oslanjaju na internetski sadržaj. Ako jezik nije dovoljno prisutan na internetu, prijeti mu opasnost da bude isključen iz budućih AI usluga. Opći jezični modeli mogu obrađivati više jezika te prepoznati jezičnu nijansu, kulturni kontekst i regionalnu dubinu potrebnu za istinski uključive aplikacije. Ali jezični modeli obučeni na ograničenim podacima manje su točni, imaju više “halucinacija” i pogrešaka, bore se s vokabularom i odražavaju veću pristranost.

Na primjer, Llama 3.1, popularni model otvorenog koda, pokazuje jaz u kvaliteti odgovora od 15 postotnih bodova prilikom odgovaranja na engleskom i grčkom, dok je jaz između engleskog i latvijskog veći od 25 bodova. Nejednakost među jezicima pokazuju svi glavni testovi performansi jezičnih modela.

Ekonomske posljedice neuravnoteženih jezičnih modela

Takav neuravnoteženi model ima stvarne ekonomske posljedice. Ako AI sustavi ne mogu razumjeti ili odgovoriti na jeziku regije, ograničavaju pristup uslugama i prilikama, potkopavajući lokalna poduzeća i širi gospodarski rast. Napredni AI alati, poput onih za analizu tržišta ili generiranja sadržaja, vjerojatno ne funkcioniraju na jezicima koji nisu zastupljeni u jezičnim modelima.

A široka primjena umjetne inteligencije – usvajanje i korištenje u cijeloj ekonomiji – bit će jedan od najvažnijih pokretača inovacija i rasta produktivnosti u sljedećem desetljeću. Kako bi potaknula ekonomsku konkurentnost u eri AI-ja, Europa će morati srušiti jezične barijere i potaknuti primjenu umjetne inteligencije diljem kontinenta. Prema Europskoj komisiji, samo 13,5 posto poduzeća u EU koristi AI. U akcijskom planu EU-a za uspostavu AI kontinenta EU-a navodi se da bi rušenje jezičnih barijera na jedinstvenom tržištu moglo potaknuti unutarnju trgovinu EU-a za do 360 milijardi eura.

Suradnja Microsofta s europskim partnerima

Kako bi pomogao premostiti ovaj jezični jaz, Microsoft će surađivati s europskim partnerima na povećanju dostupnosti višejezičnih podataka. Tim stručnjaka laboratorija ICube na Sveučilištu u Strasbourgu, institucije posvećene inženjerstvu, računalstvu i obradi slike, u suradnji s Microsoftovim Centrom za otvorene inovacije (MOIC) i AI for Good Labom u Strasbourgu, radit će na pohrani višejezičnih podataka, čineći ih dostupnima i transparentnima europskoj javnosti, uključujući programere otvorenog koda. To uključuje, na primjer, višejezične tekstualne podatke s GitHuba i skupove glasovnih podataka. MOIC i GitHub će surađivati s Hugging Faceom, popularnom platformom za suradnju u razvoju AI modela, kako bi učinili podatke široko dostupnima.

MOIC će također surađivati s Common Crawlom, jednim od najvećih besplatnih i otvorenih repozitorija podataka s interneta. MOIC će financirati rad u Common Crawlu, koristeći izvorne govornike za anotiranje i unošenje podataka europskih jezika u javno dostupan skup podataka Common Crawla.

MOIC i AI for Good Lab objavit će poziv za prijedloge kako bi pomogli proširiti ponudu digitalnog sadržaja za 10 europskih jezika tako što će svoje tekstualne zbirke učiniti dostupnima odgovorno i etički pod vlastitim uvjetima za višejezični razvoj AI-ja i iskustva. Prijave za bespovratna sredstva bit će dostupne na web stranici AI for Good Laba, počevši od 1. rujna 2025. Pri odabiru primatelja, MOIC i AI for Good Lab će se usredotočiti na mogućnosti otključavanja podataka na jezicima s relativno niskom zastupljenošću u online sadržaju, kao što su estonski, alzaški, slovački, grčki i malteški. Bespovratna sredstva će primateljima osigurati Azure kredite te inženjersku i tehničku podršku.

Problem nelatiničnih pisama

Bolji tehnološki alati i znanje također mogu pomoći. Na primjer, mnogi jezici koriste pisma koja trenutačno predstavljaju izazove za modele izvorno dizajnirane za latiničnu abecedu. Ćirilični znakovi, grčka abeceda i arapsko kurzivno pismo imaju različita svojstva.

Gotovi “tokenizeri” često razbijaju ta pisma na suboptimalne načine. To može naštetiti sposobnosti modela da nauči dalekosežni kontekst ili točan pravopis na tim jezicima. Novi napredak u tehnikama koje omogućuju modelu da rukuje bilo kojim pismom jednoliko može pomoći. Bolji mehanizmi za stvaranje sintetičkih podataka te za bolju obradu i kuriranje tih podataka također mogu pomoći, posebno kada učinkovito upravljaju pitanjima privatnosti i osjetljivih podataka.

MOIC i AI for Good Lab radit će na olakšavanju razvoja i dijeljenja znanja, alata i sposobnosti za rješavanje ovih problema i osnaživanje europskih programera. AI for Good Lab će objaviti nacrt koji detaljno opisuje kako stvoriti visokokvalitetne jezične skupove podataka i obučiti lokalne LLM-ove kako bi se dobila veća snaga iz postojećih podataka. Ovi timovi također će podržati Barcelone Supercomputing Centar, Baskijski centar za jezičnu tehnologiju i Sveučilište u Santiagu de Compostela u razvoju AI modela obučenih na španjolskom, katalonskom, baskijskom i galicijskom jeziku na Azure AI Foundry.

Akademska suradnja

Kako bi unaprijedio odgovorno AI istraživanje i pomogao smanjiti jezični jaz, Microsoft pokreće dvije nove akademske suradnje u Europi na Sveučilištu u Strasbourgu i IE University School of Science & Technology u Španjolskoj. Microsoftov AI for Good Lab i MOIC surađivat će sa Sveučilištem u Strasbourgu kako bi osigurali Azure bespovratna sredstva za podršku zajedničkom AI istraživanju. Na IE University School of Science & Technology, Microsoft AI for Good Lab osigurat će Azure bespovratna sredstva za podršku zajedničkom istraživanju usmjerenom na jezike s ograničenim resursima, uključujući podršku za povezane završne projekte.

Tehnologija bi trebala odražavati bogatstvo čovječanstva. Treba poduzeti mjere da umjetna inteligencija ne izbriše jezičnu i kulturnu raznolikost, već da je osnaži. Ključno je premostiti jaz i izgraditi digitalnu budućnost koja poštuje svaki jezik, svaku kulturu i svaku zajednicu diljem Europe.

DVB Portal

We use cookies to personalise content and ads, to provide social media features and to analyse our traffic. We also share information about your use of our site with our social media, advertising and analytics partners.

View more
Accept
Scroll to Top