Automatinio vertimo programos: dirbtinio intelekto pritaikymas ir perspektyvos

Autorius: dr. Jacekas Antulis, METIDA partneris, patentų grupės vadovas

  • Dirbtinis intelektas (DI) šiandien: pritaikymas ir nauda
  • DI problemos susijusios su automatiniu vertimu
  • Tobulumas jau ranka pasiekiamas

Dirbtinio intelekto sąvoka naudojama jau seniai, o ir pirmieji kompleksiniai neuroninių tinklų modeliai buvo sukurti XX a. 7-ajame dešimtmetyje. Realūs pirmieji taikymai praktikoje prasidėjo tik per pastarąjį dešimtmetį, nes būtent dabar mūsų technologinė pažanga ir galimybės (informacinis tankis bei apdorojimo greitis) palaipsniui priartėja prie tinkamo lygio. Tikrajam dirbtiniam intelektui, kuris galėtų stipriai priartėti prie žmogaus smegenų veiklos, sukurti reikėtų dar ne vieno dešimtmečio, tačiau jau dabar kuriami pirmieji prototipai, nereikalaujantys tokio aukšto funkcionalumo lygio.

Labai dažnai dirbtinis intelektas suprantamas kaip programa arba algoritmas, kuris gali atlikti tą patį veiksmą skirtingai, priklausomai nuo ankstesnės arba pirminės patirties. Tačiau pati programa arba algoritmas yra tik virtualus objektas, kompiuteriuose tai gali būti operacinė sistema, reikalaujantis konkretaus įgyvendinimo. Tam reikalinga atitinkama struktūra – matrica. Žmoguje tai atitinka smegenis, kompiuteryje tai būtų kietasis diskas. Tokiu būdu dirbtinis intelektas atlieka „sielos“ funkciją, o neuroninis tinklas – operacijų inicijavimo arba „pirminio kūno“ funkciją.

screenNaudojant specialiai paruoštą neuroninį tinklą bei atitinkamų algoritmų sistemą, automatinis vertimas neatrodo didelė problema, su kuria pakankamai sėkmingai  tvarkosi automatinių vertimų algoritmų kūrėjai. Per paskutinius metus automatinio vertimo programos taip patobulėjo, kad po atitinkamų testų privertė susimąstyti, ką daryti toliau ir kaip išnaudoti jų naujas galimybes kasdieninėje praktikoje.

Pirmoji vertimo problema – žodžiai ir gramatika. Prieš dvidešimt metų tai buvo didelė problema, nes reikalavo didelės duomenų bazės, matricos ir daugelio taisyklių. Tačiau prieš dešimt metų ši problema buvo išspręsta ir atsirado pirmosios automatinio vertimo programos, kurios tuo metu buvo labai mėgėjiškos ir suformavo visuomenės  nuomonę, kad automatinis vertimas niekada nebus tobulas. Kiekvienoje kalboje žodžių kiekis yra gana tiksliai apibrėžtas, taisyklės ir išimtys aiškiai nurodytos, todėl analizuojant šią problemą matematiniu požiūriu – automatinio vertimo programose ši problema jau praktiškai išspręsta.

Antroji problema –  žodžių eiliškumas. Kiekvienoje kalboje žodžių eiliškumą tiksliai apibrėžia žodžių tvarkos taisyklės. Turint pakankamai didelį analizės lauką tai yra nesunkiai įveikiamas uždavinys. Ši problema dar egzistuoja tik todėl, kad pačių kalbų yra pakankamai daug ir nėra išsispręsti visi netikslumai tam tikrose kalbose, tačiau kalbant apie populiariausias kalbas tai jau įveiktas etapas.

Trečia problema – formulės ir cheminiai junginiai. Sunkumai kyla dėl to, kad reikia keisti išvedamo teksto formatą – keisti redaktorių (papildomai diegti kompiliatorių). Šiuo metu daugiausiai naudojamas yra paprastasis formatas, kuris neleidžia dirbti su struktūrinėmis arba daugiapakopėmis formulėmis. Šią problemą būtų galima realizuoti „html“ formatu, bet tai tiktų ne visiems, o programavimas specialiajame formate užimtų papildomo laiko. Kol kas niekas nenori tuo užsiimti, nes paprasčiausiai neturi resursų.

Ketvirta problema – specifinės srities terminologija. Šiuo metu ši problema  aktyviai sprendžiama, nes egzistuoja visose pagrindinėse kalbose. Algoritmai jau pakankamai gerai išsprendė žodžių eiliškumo problemą, kai reikia analizuoti ne visą tekstą, bet tik vieną sakinį. Tačiau terminologijos problemai išspręsti reikia analizuoti mažiausiai kelis sakinius. Kai reikia analizuoti kontekstą ir sudaryti konkretaus verčiamo teksto susietų terminų sąryšius kelių sakinių apimtyje. Analizuodami verčiamus tekstus, matome, kad ši problema yra pakankamai neblogai sprendžiama, tačiau patikrinti terminus vis tiek reikėtų. Įsigaliojus Vieningajam patentui, pagal teisinį reglamentavimą, žmogaus atlikto vertimo nereikės – pakaks automatinio. Šiuo metu, statistiškai analizuojant realius vertimus pastebėta, kad automatinėmis programomis atlikti vertimai yra geresni nei atlikti žmonių.

Penkta problema – skirtingų tekstų maišymas grožinėje literatūroje. Joje, priklausomai nuo situacijos ir konteksto, maišoma skirtingų sričių terminologija ir temos, todėl matematiniu požiūriu ji yra mažiau „stabili“.

Kadangi kalbą apibrėžia taisyklės ir jų išimtys, idealus automatinis vertimas yra įmanomas. Ateityje jis bus toks pat geras ar net geresnis už žmogaus atliktą vertimą,  nes žmogus gali klysti, o mašina – ne. Naudojant automatines vertimo bei saugojimo programas, ateityje tai padės išsaugoti originalią kalbą, taip pat lyginti ją su tuo, kas buvo prieš daug metų. Bus galima aptikti įvykusius pokyčius ir nustatyti, kada ir kodėl tai įvyko. Tautų kalbų autentiškumą ateityje galės išsaugoti tik mašinos, nes žmonės linkę savo kalbą paprastinti, keisti, pamiršti.

Po ilgo automatinio vertimo proceso tobulinimo bus lengviau pasiekti kitą tikslą – automatinį sinchroninį vertimą, kai automatinės vertimo programos realiu laiku pateiks sakomos kalbos vertimą į kitą kalbą. Jau dabar ši technologija egzistuoja ir yra tobulinama, bet kol kas ji yra mažai žinoma.

Durys į dirbtinio intelekto kambarį jau yra viliojančiai pravertos, o virtualių erdvių aibė jau sukurta. Ar mes pasiruošę įeiti į šį kambarį ir nepasiklysti jame? Tai priklauso nuo mūsų pačių.

ĮVERTINKITE BLOGĄ ⇒

Paskelbta temoje Uncategorized | Parašykite komentarą

„Uber“ case: leaked data and thousandth fines

Author: Valdemaras Kovalevskis,  lawyer and attorney assistant at METIDA

  • How leaked data scandals damage reputation of large companies?
  • You failed when protecting personal data – inform supervisory authority
  • Neglect attitude leads to huge fines

At the end of 2017 Uber revealed that it had failed to report the leak of data including the names, e-mail addresses and mobile phone numbers of 50 million clients and 7 million drivers which occurred in October 2016. In addition to the names, e-mail addresses and mobile phone numbers, the hackers also stole the license details of roughly 600,000 drivers. The company concealed the hack not only from the supervisory authorities but from the users as well.

Moreover, it was revealed that Uber paid the hackers $100,000 to destroy the data and to ‘confirm’ the data had been destroyed.

It was not the first data theft in the history of Uber. In early 2017 Uber was fined $20,000 for failing to disclose a considerably less serious breach of personal data protection to the supervisory authority. Uber did not learn from its mistakes and stepped on the same rake for the second time.

Dizainas be pavadinimo

General Data Protection Regulation envisages cases when the breaches related to personal data protection must be reported not only to the supervisory authorities but also to the individuals whose data had been processed.

When do we need to report a breach of data protection to the supervisory authority?

The breach of data protection can be understood in a rather broad sense. Such cases include breaches which cause the personal data to be accidentally or illegally destroyed, lost, replaced, exposed without consent, forwarded, kept or otherwise organized. The cases considered to be a breach of data protection also include providing access to the data processed without consent.

General Data Protection Regulation envisages the duty of the controller to report to the supervisory authority (State Data Protection Inspectorate in Lithuania) nearly every breach of data protection. It shall not be reported if such a breach should not jeopardise the rights and freedoms of natural persons. It should be immediately reported to the supervisory authority, but not later than 72 hours after the discovery of a breach of personal data protection.

When does the data subject have to be informed about the breach of data protection?

In cases when the breach of data protection can put the rights and freedoms of natural persons at high risk, the person who processes the data shall immediately report this to the data entity, too. It is obvious that ‘high’ is an evaluative concept, and the regulation does not provide a list of cases when the risk is considered to be high, so the controller should remain free, albeit limited, to decide what is a high risk.

We shall assume that the data entity will have to be informed about the breach of data security when the personal data of special categories, e.g. genetic, biometric or health-related data, are lost. The presence of a high risk can also be associated with the event of the financial loss for a natural person.

Failure to report the breaches of data protection is subject to a fine

General Data Protection Regulation envisages that a failure of a controller to comply with the obligation to report a breach of data protection shall be subject to a fine up to 10 million euro or, in case of a company, up to 2% from its overall global turnover of the previous fiscal year.

The case of Uber is a great lesson that one shall not avoid reporting the breaches of data protection to the supervisory authority, as the concealment of the fact can cause even more damage. In any case, if a breach of data protection occurs, one should not pay the hackers any fees of “ransom” or “silence”, because when it is revealed, one can not only be subjected to a larger fine from the supervisory authority but also loses the money paid to the blackmailers. In such a case, one not only incurs bigger losses than they could have incurred, but the reputation is affected even more, as it is revealed that the controller is not capable of properly assessing the risks, related with the protection of personal data and does not pay enough attention to data protection.

Paskelbta temoje Uncategorized | Parašykite komentarą