Audio Mining

Alkalmazott technológiák

Két fő technológiai irányzat létezik:

1. Fonetikus keresés (Fonéma indexeléses módszer)

Ilyenkor két, egymástól teljesen elkülönült lépésésben hajtjuk végre a feladatot. Az első, fonetikus indexelésnek nevezett lépésben elkészül a vizsgált hanganyag fonetikus leírása (a legvalószínűbb alternatívákkal együtt). A rendszer azonosítja a hanganyag beszédnek minősített szakaszait, és lefedi azokat az adott nyelv fonémáival. A második lépéseben a megadott kulcsszavak kikeresése történik az első lépésben előállított fonetikus leírásból. A keresés figyelembe veszi a kulcsszavak többféle kiejtési variánsát is.

Előnyei:

Szótár független megoldás: nincs szükség a használt szavak definiálására (előre). Ez azt is jelenti, hogy az eljárás a kulcsszavaktól is független, azaz a fonéma indexelést nem kell megismételni keresett kulcsszavak megváltozása esetén sem (csak a specializált keresést kell újra elvégezni).

Hátrányai:

Pontosság: a fonéma indexelési eljárás általában pontatlanabb mint egy „komplett” beszédfelismerési algoritmus, egyszerűen azért mert csak az akusztikus és fonetikus információkra épít, míg egy beszédfelismerő képes felhasználni ennél magasabb szintű modelleket is, mint például szó és mondat szerkezetek, sőt akár szemantikus ismeretek.
Sebesség: a tapasztalatok azt mutatják, hogy a fonéma indexelés lassabb egy speciálisan az audio mining feladatra konfigurált és optimalizált beszédfelismerőnél (például ilyen a demo során bemutatásra kerülő rendszer).

2. Keresés beszédfelismerő által előállított szövegben

Nagy szótáras, folyamatos beszéd feldolgozására szolgáló beszédfelismerő technológiára (LVCSR – Large Vocabulary Continuous Speech Recognition) épülő módszer. Ilyenkor a hanganyagot egy felismerö segítségével szöveggé alakítjuk. A második lépéseben a megadott kulcsszavak kikeresése történik az első lépésben előállított szövegből (az elöálló szógráf alapján).

Előnyei:

A szöveg teljes leírását adja.

Hátrányai:

Zárt szótáras megoldás: csak az előre definiált szavakat képes felismerni.

Mérőszámok

Audio mining rendszerek technológiai minőségének meghatátozására két alapvető mérőszám létezik:

Kulcsszó detektálási arány (DR - Detection Rate): a megfelelő pozicióban felismert kulcsszavak aránya.
Hibás jelzések aránya (FAR - False Alarm Rate): hibás jelzések száma egy óra hanganyagban egy kulcsszóra vonatkozóan.

A két mutató erősen összefügg, azaz a felismerési (detektálási) arány javítása magával hozza a hibás jelzések számának növekedését.

Az természetesen alkalmazás függő, hogy melyik mérőszám kap nagyobb hangsúly a rendszer hangolása során, vannak olyan területek ahol a pontosságnak sokkal nagyobb jelentősége van és nem számít a hibás jelzések nagy száma, illetve fordítva.

Philips technológia

Elsődleges alkalmazási területe a online és offline (batch) diktálási rendszerek, például különböző orvosi és jogi alkalmazásokban (radiológiai leletek, vizsgálati eredmények rögzítése, stb.). Ennek megfelelően elsősorban erre a használati módra van optimalizálva, azonban rugalmasságának és konfigurálhatóságának köszönhetően más területeken is jól alkalmazható. Ilyenek például:

Parancs felismerés (Command and Control): mellyel szinte tetszőleges applikáció hanggal vezérelhetővé tehető. A parancskészletet környezet-független nyelvtanok formájában lehet definiálni a hozzájuk kapcsolódó szemantikus információkkal (attribútumokkal és műveletekkel) együtt.
Dialógus rendszerek (VoiceXML): az alkalmazás és a felhasználó közötti párbeszédek kialakítására.
Form filling: parancs vezérlés és diktálás kombinációja űrlapok, formanyomtatványok kitöltéséhez.
Audio mining

A Philips beszédfelismrő technológiájának másik komoly erőssége a támogatott nyelvek nagy száma. Jelenleg több mint húsz európai nyelven képes működni, közöttük természetesen magyarul is.

Demó rendszer

A rendszer a Philips-en belül, egy az audio mining területtel foglalkozó partner kérésére lefuttatott technológia projekt eredményeire épül. Az alapját egy speciálisan konfigurált parancs felismerő képezi. Ez lényegében egy hibrid megoldás, amely megpróbálja egyesíteni a két, korábban említett technológiai irányzat előnyeit. A rendszer szótára tartalmazza a keresett kulcsszavakat (parancsok formájában) valamint egy úgynevezett garbage modellt, melynek az a feladata, hogy lekezelje a szövegben, a kulcsszavakon kívül elhangzó összes többi szót és kifejezést. Megvalósítása hasonlít a fonetikus indexelés módszerére, mivel az adott nyelv fonéma készletét, valamint azok átmeneteire vonatkozó statisztikus információkat használja.

Az angol mellett a demó rendszernek van egy magyar nyelvű telefonos teszt anyagon futó változata is.

További technológiai lehetőségek

Valódi (diktálási) kontextus alkalmazása

Abban az esetben ha lehetőség van előre behatárolni a vizsgált hanganyagban elhangzó szöveg témáját, szövegkörnyezetét (kontextusát) akkor a felismerést feljavíthatjuk az adott tématerületre optimalizált szótárral és a gyakran alkalmazott nyelvi szerkezeteket leíró adatbázissal (language model), hasonlóan a diktálási rendszerekhez.

Adaptáció használata

A rendszer képes alkalmazkodni (egy beépített tanulási mechanizmus segítségével) a különböző átviteli csatornák, beszélők, vagy beszélő csoportok akusztikus és nyelvi specialitásaihoz, jellemzőihez.

Beszélő azonosításához kapcsolódó technológiák

Több fajta változata, alkalmazása létezik:

Felismerés során a rendszer meghatározza, hogy az általa használt akusztikus adatok az aktuális beszélőhöz kapcsolódnak-e, vagy nagy valószínüséggel valaki más jellemzőit írják le (non-speaker detection).
Beszélő előre definiált csoportokba sorolása (férfi, nő, stb.).
Beszélő azonosítása: beszélő személyének a meghatározása egy refernecia csoportból (néhány tíz, maximum egy-két száz elemű).

Beszéd megértési technológiák

Mint utófeldolgozási lépések: téma (topic), illetve ”történet” (story) detektálás. Egy előre összeállított, a lehetséges témákat leíró adatbázis segítségével lehetőség van arra, hogy egy bizonyos valószínüséggel meghatározzuk az elhangzott szöveg témáját (a kulcsszavak gyakorisága alapján).