Sodelovanje občine v raziskovalnem projektu
Občina Šmarje pri Jelšah bo na podlagi zaprosila Inštituta za kriminologijo, ki izvaja ciljni raziskovalni projekt PROTEVERB – pravni, etični in tehnološki vidiki obdelave besedilnih in govornih virov podatkov za znanstvene, raziskovalne in razvojne namene, ki ga financirata Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije (ARIS) in Ministrstvo Republike Slovenije za digitalno preobrazbo, v okviru raziskovalnega projekta posredovala posnetke sej in zapisnike sej z namenom in ciljem dejanske izvedbe oziroma strojnega učenja modela – razpoznavalnika govora za slovenski jezik, in sicer za neposredno pretvorbo govora v pisano besedilo.
Razvoj takega modela zahteva računalniško analizo in sintezo govorjenega jezika in zapisanih besedil (besed, besednih zvez, stavkov, povedi, naglasov in fonetičnih zapisov). Govorna baza, ki bo osnova za implementacijo algoritmov strojnega učenja, mora biti tako sestavljena iz jezikovnih virov, ki se morajo medsebojno ujemati, kar pomeni, da mora biti zapis dobeseden ali kar se da natančen prepis govora. Zvočni posnetki sej namreč vsebujejo edinstveno jezikovno terminologijo oseb, ki so prisotne na seji (knjižno slovenščino, naglase, narečne prvine, tujejezične vložke posameznikov), glasovne značilnosti (barva, ton, glasnost, glasovne motnje, frekvenčne značilnosti zvoka) ter jezikovne in druge govorne značilnosti (hitrost govora, govorne motnje, retorične veščine, jasnost izražanja, razločnost), ki so posnete v specifičnih akustičnih razmerah. Prepisi zvočnih posnetkov pa po drugi strani prikazujejo zgolj objektiven zapis govora in omogočajo, da bo razpoznavalnik vse specifike govora pravilno prepoznal in bo v prihodnjih situacijah govor ustrezno pretvoril v zapis.