Szabadszótáras felismerés
Mi a beszédfelismerési kontextus?
Szabadszótáras felismerés esetén a beszédfelismerő rendszer nagy számú szóval dolgozik. A rendszerben, - az egyes konkrét alkalmazásoknál - használt szótár maximum 128 ezer szót képes tárolni.
Ugyan egy átlagos ember sokkal kevesebb (pár ezer) szóval beszél, a gyakorlatban 40-60 ezer szavas szótárakat állítanak fel, és ezeket használják, hiszen nem lehet teljesen pontosan tudni, melyik pár ezer szót szeretné a felhasználó alkalmazni. Ha egy szó nincs a lexikonban (szótárban), a rendszer természetesen nem fogja ezt a kifejezést felismerni.
Régebben a beszédfelismerést korlátozás nélkül (teljesen általános kontextus felépítése mellett) próbálták felhasználni, abból kiindulva, hogy a legtöbb ember a köznapi beszédben kevés szót használ. Ilyenkor azonban a felismerés minősége nem bizonyult megfelelőnek. Mindig hiányoztak szavak, mindig akadtak nehezen felismerhető mondatok. Ha a felismerés nem „elegendően jó”, és sokat kell javítani a felismerendő szövegben, akkor a felhasználó számára a rendszer nem elég attraktív. Ezért a feladatot szűkítve, egy-egy adott témakörben lediktálható szövegekre koncentrálva, a témakörre specializált szótár és a szókapcsolatokat leíró nyelvi modell segítségével dolgoznak a professzionális felismerők. Egy-egy ilyen témakőrt hívnak beszédfelismerési kontextusnak. Egy jól kiválasztott kontextus a felismerés pontosságát akár 98 százalékig is javíthatja.
Milyen kontextusok léteznek?
Kontextusokat a gyakorlatban, az egészségügy különböző szakterületein és jogi területen fejlesztett ki a Philips nyelvi részlege nagy számban. (példák: radiológia, patológia, ügyvédek, biztosítók, sok nyelven, sok száz kontextus). Mivel az egy területet lefedő, jó minőségű kontextus kifejlesztése viszonylag sok időt és pénzt emészt fel, célszerű az adott szakmában összefogással az egyes résztvevőkre jutó költségeket minimalizálni.
A kontextus készítés több, mint az adott területen megjelenő szavak összegyűjtése. Ilyenkor először is az adott területen megjelenő nagy mennyiségű szöveget össze kell gyűjteni. Ez egy nagyságrendileg 100 millió szót tartalmazó, elektronikus formában tárolt szöveget jelent, melynél fontos, hogy megfelelően legyen összeválogatva. Ügyelni kell arra, hogy elsősorban az adott témakör szövegei legyenek összegyűjtve (fontos, hogy legyenek általánosabb szövegek is a gyűjtött szöveges anyaghoz keverve). Az anyagot meg kell „tisztítani” a felesleges részeitől. Statisztikai, nyelvészeti és akusztikai modellek alapján ki kell választani a lényeges szavakat, szókapcsolatokat és azokat ábrázolni kell a nyelvi modellben.
Az egészségügyi kontextusokat általában a radiológiai anyagok összegyűjtésével kezdik, utána más diagnosztikai osztályok anyagaival folytatják (patológia, klinikai jelentések, stb.), ezekből mind külön-külön kontextust készítenek. A felismerési ráta annál jobb, minél specializáltabb kontextusokkal tudunk dolgozni. Amióta a teljes kórházi rendszerben alkalmazzák a beszédfelismerést, és a beszédfelismerési technológiában új eredmények jelentek meg, általános egészségügyi kontextusokat is tudnak használni.
Jelenleg magyar nyelvre a radiológiai területre vonatkozó teljes kontextus készül (illetőleg demonstrációs célra kontextusok). Az indoeurópai, pl. angol nyelvvel ellentétben a mi nyelvünk erősen ragozó jellegű, ezért a szó alapú felismerés nem megoldható. A lexikon (szótár) a ragozott szavak tárolására túl kicsi. A felismerés alapja magyar nyelven a szótövek, jelek ragok, képzők helyes felismerése és kombinációja. A Philips nyelvi részlege alkalmazni tudja a finn verzió kifejlesztése során tapasztaltakat. Ez a technológia jelenleg teljesen egyedülálló, és biztosítja - az erősen ragozó nyelveken - a jó minőségű felismerést. (A magyar nyelv kevésbé problematikus, min a finn.)
További kérdések
- Milyen felismerési arány érhető el magyar nyelven?
Navigation
Actions
Toolbox
Copyright © 2012 StartVox Kft Oldaltérkép