Transkription

Automatische Spracherkennung immer noch mit großen Problemen

D. Lenz

Automatische Spracherkennungssysteme haben in Interviewsituationen immer noch große Defizite. )elgooG(Foto: © 

Eine aktuelle Studie, die die Leistungsfähigkeit von sieben Spracherkennungssystemen in Deutschland untersucht hat, kommt zu dem Ergebnis, dass Alexa, Bing, Google und Co. bei weitem noch nicht mit der Transkription eines Menschen mithalten können.

Hannover (Deutschland). Automatische Spracherkennungssysteme sind schon jetzt nicht mehr aus dem Alltag wegzudenken. Dabei sind die Anwendungsgebieter umfangreicher als man auf den ersten Blick vielleicht ahnen mag: Ob persönliche Sprachassistenten wie Siri oder Cortana, Navigationsgeräte, die Sprache in Text und anschließend in klare Befehle übersetzen oder der Einsatz von automatischen Spracherkennungssystemen in Call-Centern oder Krankenhäusern – die Anwendungsfelder für automatisierte Spracherkennungen sind riesig. Aber wie gut sind diese automatischen Spracherkennungssysteme wirklich?

Der deutsche Marktführer für Transkriptionen abtipper.de hat in einer wissenschaftlichen Studie die Leistungsfähigkeit verschiedener automatischer Spracherkennungssysteme im deutschen Sprachraum untersucht. Neben den großen Anbietern wie Alexa, Bing und Google wurden aber auch kleinere Nischenanbieter bei der Studie berücksichtigt.

Spracherkennungssystem haben eine Trefferquote von lediglich 67,6 Prozent

In einem umfangreichen Test hat abtipper.de, die selbst Transkripte in 80 verschiedenen Sprachen anbieten, die Worterkennungsrate in einem Gespräch mit zwei Personen untersucht. In einer solchen typischen Interviewsituation erreicht ein Mensch, abhängig von dem Thema des Gespräches sowie der individuellen Erfahrung, eine Trefferquote über 96 Prozent. Im Klartext bedeutet dies, dass bei einer menschlichen Transkription bei einem Text mit 100 Wörtern weniger als vier Fehler passieren.

In dem Test erreichte das beste Spracherkennungssystem gerade einmal eine Trefferquote von 67,6 Prozent und liegt damit weit hinter dem Menschen. Bereits bei zwei Sprechern war zudem noch keines der Systeme in der Lage, eine zuverlässige Sprecherzuordnung durchzuführen. Wer also etwas in sehr guter Qualität transkribieren lassen möchte, sollte vorerst auf die vollautomatischen Dienste von Google und Co. verzichten und auf eine manuelle Transkription durch einen Anbieter wie abtipper.de zurückgreifen. Gerade für professionelle Transkripte mit mehreren Sprechern, kommt man also beim aktuellen Stand der aktuellen Technik noch nicht um eine manuelle Lösung herum. Die Spracherkennung von Bing schnitt bei dem Test im übrigen als schlechtestes System ab.

Die Studie hat gezeigt, dass in Gesprächssituationen mit mehr als einem Sprecher die automatische Spracherkennungssoftware aller getesteten Anbieter noch sehr fehleranfällig ist. Der Transkript-Dienst abtipper.de kommt zu dem Schluss, dass sich die vollautomatischen Dienste nur für ganz bestimmte Anwendungsfälle eignen, wie beispielsweise Aufnahmen mit nur einem Sprecher und vorgegebenem Wortschatz oder der Digitalisierung großer Archive. Die Kosten für fehlerfreie manuelle Transkripte würden bei letzterem Fall vermutlich nicht im Verhältnis stehen.

Bei Monologen schlagen sich Spracherkennungssysteme besser

Zwar schneiden Spracherkennungssysteme in einer typischen Diktatsituation mit nur einem Sprecher mit etwa 85 Prozent Trefferquote deutlich besser ab, die menschlichen Trefferquote erreichen sie aber trotzdem noch nicht. Dennoch kann man Systeme mit diesem Wert bereits für unterschiedliche Praxisanwendungen sinnvoll einsetzen. Gerade für unnatürliche Sprechsituationen mit vorgegebenem Thema und eingegrenztem Wortschatz, wie Befehle für Alexa (Skills), funktionieren die Spracherkennungssysteme bereits einigermaßen gut. Geht es jedoch um die freie Spracherkennung ohne künstlich eingegrenzten Wortschatz und mit mehreren Sprechern, so zeigen alle getesteten Systeme noch großes Verbesserungspotenzial.

Spannend & Interessant
VGWortpixel