Vyksta Lietuvių kalbos garsyno sukūrimas (šnekos atpažinimo tikslams)

Teikiama nuo2024-02-28 12:00
Teikiama iki2024-04-30 17:00
Finansavimo suma4 577 430.00
Pareiškėjo tipasViešasis sektorius
Projektų atrankos būdasKonkursas
RegionasNetaikomas
Atsakinga institucijaEkonomikos ir inovacijų ministerija
ProgramaNaujos kartos Lietuva
Administruojančioji institucijaCentrinė projektų valdymo agentūra

Finansuojamos projektų veiklosVeiklos nr.Veiklos pavadinimas
05-002-01-07-08-02-01-01Lietuvių kalbos garsyno vystymas (šnekos atpažinimo tikslams)
Tikslinės grupėsMokslo ir studijų įstaigos
Galimi pareiškėjaiMokslo ir studijų įstaigos
Pareiškėjo tipasViešasis sektorius
Galimi partneriaiMokslo ir studijų įstaigos
Didžiausia galima skirti finansavimo lėšų suma projektui įgyvendinti4 577 430.00
Finansuojamoji dalis100 proc.
Finansavimo formaDotacija
Reikalavimai projektams1. Šiuo Aprašu finansuojamas 1 projektas, kuriam įgyvendinti skiriama iki 3 783 000 Eur (trijų milijonų septynių šimtų aštuoniasdešimt trijų tūkstančių eurų) Ekonomikos gaivinimo ir atsparumo didinimo priemonės lėšų ir iki 794 430 Eur (septynių šimtų devyniasdešimt keturių tūkstančių keturių šimtų trisdešimt eurų) Lietuvos Respublikos valstybės biudžeto lėšų, skirtų netinkamam PVM apmokėti. PVM gali būti finansuojamas tik Projektų administravimo ir finansavimo taisyklių VII skyriaus 4 skirsnyje nustatyta tvarka.

2. Vienas pareiškėjas gali pateikti tik vieną PĮP, parengtą pagal Projektų administravimo ir finansavimo taisyklių 1 priede pateiktą formą.

3. Projektas turi atitikti bendruosius projektų atrankos kriterijus, nustatytus Projektų administravimo ir finansavimo taisyklių 2 priede.

4. Projekto komunikacijos ir informavimo veiksmai atliekami vadovaujantis Projektų administravimo ir finansavimo taisyklių VIII skyriaus „Kiti projektų reikalavimai“ pirmojo skirsnio „Informavimas apie projektą ir komunikaciją“ nuostatomis.

5. Privalomi techniniai reikalavimai projektui:

5.1. Kokybiškam šnekos atpažinimo modelių parengimui reikalingas garsynas, kurio apimtis yra ne mažesnė kaip 10 tūkst. valandų ir kuriame yra ne mažiau 500 įvairių diktorių balso įrašų pavyzdžių. Garsyno struktūrai ir apimčiai keliami šie reikalavimai:

5.1.1. Garsyną turi sudaryti lietuviškos šnekos įrašai. Bendra intarpų kitomis kalbomis apimtis negali būti didesnė nei 0,1 procento bendros garsyno apimties.

5.1.2. Garsyną turi sudaryti ir žmonių, vartojančių nenorminę kalbą (pvz., žargoną, necenzūrinius žodžius), įrašai (ne mažiau nei 100 valandų).

5.1.3. Į garsyną turi būti įtraukti įvairių dialektų įrašai, t. y. žemaičių, dzūkų, suvalkiečių, aukštaičių (ne mažiau nei 100 val.) šneka.

5.1.4. Garsynas turi būti naujas lingvistinis išteklius. Jame negali būti panaudoti ir (arba) įkomponuoti jau sukurti lietuviški garsynai; garsyne negali būti pasikartojančių įrašų.

5.1.5. Garsyno įrašai turi būti saugomi 44 kHz 16 bitų mono- laisvai platinamu ir (arba) atviruoju formatu.

5.1.6. Garsynui keliami reikalavimai:

5.1.6.1. Garsynas turi būti sudarytas pagal diktorių lyties, amžiaus, tarminio regiono kriterijus.

5.1.6.2. Garsynas turi atspindėti šnekos turinio fonetinę (proporcingai paskirstytas lietuvių kalbos garsų ir jų kombinacijų padengimas), teminę (šneka įvairiomis temomis) ir stiliaus (skaitoma, spontaninė šneka ir kt.) įvairovę.

5.1.6.3. Garsynas turi atspindėti tiek profesionalų naudojamos, tiek buityje naudojamos įrašymo įrangos ir akustinės aplinkos įvairovę.

5.1.6.4. Garsyno įrašai turi būti padaryti įvairaus triukšmingumo sąlygomis.

5.1.7. Garsynas turi būti laisvai prieinamas pagal atvirąją licenciją (angl. „Creative Commons“).

5.1.8. Garsynas privalo būti pateikiamas mažiausiai dviejose atviros prieigos platformose (pvz., „Hugging Face“, CLARIN ar kt.) ir Lietuvos atvirų duomenų portale (data.gov.lt) ir prieinamas nemokamai.

5.2. Anotacijos yra tekstiniai dokumentai, kuriuose pateikiama glausta informacija apie garso įrašų turinį ir jis susiejamas su konkrečiais laiko momentais. Jos sudaro galimybę panaudoti garsyną dirbtinio intelekto sprendimams. Garsynui anotuoti keliami šie reikalavimai:

5.2.1. Visi garsyno įrašai turi būti anotuoti (turi turėti atitinkamus anotacijų įrašus) frazių (angl. „utterance“) lygmeniu (nurodomas frazės tekstas bei pradžios ir pabaigos laiko momentai).

5.2.2. Ne mažiau nei 500 val. garsyno įrašų turi būti anotuoti leksinių vienetų ir fonemų lygmeniu.

5.2.3. Anotacijose turi būti pažymėta:

5.2.3.1. nekalbinės garso įrašo atkarpos;

5.2.3.2. diktoriaus tarties neatitiktis bendrinės kalbos tarimo normoms;

5.2.3.3. kiekvieno diktoriaus šnekos ribos ir persidengiančios kelių diktorių šnekos ribos, jei garso įraše kalba du arba daugiau diktorių.

5.2.4. Anotacijų tekstai turi būti užrašyti lietuvišku tekstu UTF-8 koduote.

5.2.5. Projekto vykdytojas turi pasitvirtinti garsynų anotavimo metodiką, kuri būtų pagrįsta pripažintais ir tarptautiniais standartais. Ši anotavimo metodika turi būtų taikoma visų anotuotojų.

5.3. Garsyno validavimui keliami šie reikalavimai:

5.3.1. Reikia atlikti garsyno anotacijų validavimo procesą ir parodyti, kad garsyno įrašų ir tų įrašų anotacijų tarpusavio neatitikimai neviršija 0,1 % frazių lygmeniu ir 0,05 % leksemų lygmeniu.

5.3.2. Reikia panaudoti 1 % atsitiktinai parinktų garsyno įrašų (ne mažiau nei 100 val.) ir sukurti demonstracinę šnekos atpažinimo sistemą, kurios žodžių atpažinimo klaida (angl. WER) neviršytų 20 proc., taip siekiant parodyti garsyno tinkamumą šnekos atpažinimo tikslams.

6. Dokumentavimo reikalavimai projektui:

6.1. Garsyno dokumentacija turi apibūdinti:

6.1.1. garsyno įrašų ir anotacijų saugojimo struktūrą, failų pavadinimų konvencinius žymėjimus;

6.1.2. garsyno statistiką įvairiais pjūviais (lyties, amžiaus, turinio ir kt.);

6.1.3. anotacijos metodiką ir anotacijose naudojamų sutartinių simbolių paaiškinimus;

6.1.4. anotacijoms vartojamą leksikoną.

6.2. Sukurtam produktui turi būti taikomas išsamiai dokumentuotas tarptautinis metaduomenų standartas (pvz., „Data Catalog Vocabulary“ (DCAT), „Dublin Core Metadata Element Set“ (DCMES), „The Component Metadata Initiative“ (CMDI) arba analogiški).

7. Teisiniai reikalavimai projektui:

7.1. Kuriant visus produktus (rezultatus) privalu laikytis:

7.1.1. autorių ir gretutines teises reguliuojančių Lietuvos ir Europos Sąjungos teisės aktų;

7.1.2. duomenų apsaugą reguliuojančių Lietuvos ir Europos Sąjungos teisės aktų;

7.1.3. dirbtinio intelekto sistemoms rengiamų mokymo duomenų kokybę reguliuojančių Lietuvos ir Europos teisės aktų;

7.1.4. Lietuvos ir Europos Sąjungos teisės aktų, reguliuojančių atvirų duomenų formavimo ir skelbimo principus (ES direktyva dėl atvirųjų duomenų ir viešojo sektoriaus informacijos pakartotinio naudojimo BDAR (EUR-Lex - 32016R0679 - EN - EUR-Lex).

7.2. Kuriant visus produktus (rezultatus) rekomenduojama atsižvelgti į rengiamą naują dirbtinio intelekto aktą (EUR-Lex - 52021PC0206 - EN - EUR-Lex (europa.eu)).

7.3. Turi būti parengta ištekliaus naudojimo licencija, kuri užtikrina atvirą ir nemokamą prieigą prie ištekliaus. Visi surinkti garsyno įrašai turi turėti atitinkamas licencijas.

8. Pagal Aprašą galimi partneriai – mokslo ir studijų įstaigos.

9. Jeigu projektas įgyvendinamas su partneriu, partnerystė projekte turi būti pagrįsta, teikti naudą ir prisidėti prie projekto tikslo įgyvendinimo ir iki PĮP pateikimo turi būti sudaryta jungtinės veiklos (partnerystės) sutartis. Jungtinės veiklos (partnerystės) sutartį pasirašo pareiškėjas ir projekto partneris. Jungtinės veiklos (partnerystės) sutartyje turi būti aiškiai išdėstyti šalių įsipareigojimai ir teisės projekto atžvilgiu (nurodytas kiekvienos šalies finansinis ir dalykinis indėlis į projektą, aptarta, kokias veiklas vykdys kiekviena šalis, numatyti projekto rezultatai ir kita) ir šalių atsakomybė, taip pat įsipareigojimai laikytis pagrindinių gerosios partnerystės praktikos taisyklių:

9.1. Partneris turi būti perskaitęs projekto įgyvendinimo planą ir susipažinęs su savo teisėmis ir pareigomis įgyvendinant projekto įgyvendinimo planą.

9.2. Įgyvendindamas projektą projekto vykdytojas privalo reguliariai konsultuotis su partneriu ir nuolat jį informuoti apie projekto įgyvendinimo eigą.

9.3. Visi projekto įgyvendinimo plano pakeitimai, turintys įtakos partnerio įsipareigojimams ir teisėms, prieš kreipiantis į įgyvendinančiąją instituciją pirmiausia turi būti suderinti su partneriu.

10. Projekto vykdytojas kiekvieną ketvirtį (iki mėnesio 8 d.) nuo projekto sutarties pasirašymo turi informuoti Lietuvos Respublikos ekonomikos ir inovacijų ministerijos (toliau – Ministerija) paskirtą atsakingą asmenį apie projekto veiklų įgyvendinimo pažangą. Informacija apie projekto veiklų įgyvendinimo pažangą skelbiama viešai https://eimin.lrv.lt/.
Horizontaliųjų principų ir kitų nuostatų reikalavimai1. Neutralus – projektas negali daryti neigiamo poveikio horizontaliesiems principams.

2. Projekto įgyvendinimo metu neturi būti pažeidžiami HP: darnaus vystymosi, įskaitant reikšmingos žalos nedarymo principą; lygių galimybių ir nediskriminavimo (dėl lyties, rasės, tautybės, pilietybės, kalbos, kilmės, socialinės padėties, tikėjimo, religijos ar įsitikinimų, pažiūrų, amžiaus, lytinės orientacijos, etninės priklausomybės, negalios ar kt.), įskaitant prieinamumo visiems reikalavimo užtikrinimą (paslaugų, infrastruktūros, fizinės ar e. aplinkos sprendimai, informacijos, transporto prieinamumo ir pan.); inovatyvumo (kūrybingumo). Projekte neturi būti numatyta veiksmų, kurie turėtų neigiamą poveikį įgyvendinant HP.

3. Projektų atitikties Reikšmingos žalos nedarymo horizontaliajam principui vertinimo reikalavimų aprašas pateikiamas Aprašo 1 priede.

4. Veikla, vadovaujantis Europos Komisijos 2021 m. vasario 12 d. patvirtintomis Reikšmingos žalos nedarymo principo taikymo pagal Ekonomikos atsparumo ir didinimo priemonės reglamentą techninėmis gairėmis, atitinka reikšmingos žalos nedarymo principą, nes neturi neigiamo numatomo poveikio 6 aplinkos tikslams, nurodytiems 2020 m. birželio 18 d. Europos Parlamento ir Tarybos reglamento (ES) Nr. 2020/852 dėl sistemos tvariam investavimui palengvinti sukūrimo, kuriuo iš dalies keičiamas Reglamentas (ES) 2019/2088, 17 straipsnyje arba numatomas jų poveikis yra nereikšmingas, t. y. nedaro tiesioginio ir pirminio netiesioginio poveikio per visą gyvavimo ciklą.

5. Projektas neturi pažeisti Chartijos pagrindinių teisių: orumo; asmenų, privataus ir šeimos gyvenimo, sąžinės ir saviraiškos laisvės; asmens duomenų; prieglobsčio ir apsaugos perkėlimo, išsiuntimo ar išdavimo atvejų; teisių į nuosavybę ir teisių užsiimti verslu; lyčių lygybės, vienodo požiūrio ir lygių galimybių, nediskriminavimo ir neįgaliųjų teisių; vaiko teisių; gerojo administravimo, veiksmingos teisinės gynybos, teisingumo; solidarumo ir darbuotojų teisių; aplinkos apsaugos.
Reikalavimai įgyvendinus projektų veiklas3 metai po projekto įgyvendinimo pabaigos privaloma viešinti projekto įgyvendinimo rezultatus, siekiant užtikrinti sukurtų išteklių populiarinimą.
Projektų įgyvendinimo trukmėProjekto veiklos turi būti įgyvendintos iki 2026 m. balandžio 30 d.
Išsamiau žr. Esinvesticijos.lt.
 
Grįžti