In den vergangenen Monaten hat sich die Spracherkennungstechnologie zu einem äußerst leistungsfähigen Werkzeug entwickelt, das neben der Speech-to-Text Funktion auch die Art und Weise, wie wir zukünftig mit Computern, Smartphones und anderen Geräten interagieren, maßgeblich verändern wird. In der Vergangenheit basierte die Technologie zur Spracherkennung auf begrenzten Statistiken und Wahrscheinlichkeiten. Heute hat sich die Sprachtechnologie durch den Einsatz von Deep Learning und Neuronalen Netzen (DNN – Deep Neural Network) radikal weiterentwickelt.
Bei den Akteuren im Gesundheitswesen werden sowohl auf Seiten der medizinischen Leistungserbringer als auch unter den Industrievertretern große Visionen diskutiert und an neuen Lösungen gearbeitet, die einen echten Mehrwert bieten. Aber auch abseits der großen bekannten Technologie-Anbieter entstehen gerade einige neue innovative Player. Wir dürfen daher gespannt in die Zukunft blicken.
Lesedauer: 4 min
Inhaltsverzeichnis
Was sind neuronale Netze (DNN)?
Vorteile beim Einsatz von DNN in der Spracherkennung
Fazit
Was sind neuronale Netze?
Ein neuronales Netz ist ein lernfähiger Algorithmus, der mithilfe miteinander verbundener Knoten oder Neuronen, ähnlich dem menschlichen Gehirn, in einer geschichteten Struktur Lernprozesse durchführt. Ein Neuron ist hierbei die einfachste Einheit eines neuronalen Netzes. Hier findet die Informationsverarbeitung statt. Jedes Neuron kombiniert mehrere Eingangssignale, um ein Ausgangssignal zu erzeugen. Diese werden mit mehreren Schichten kombiniert, die jeweils eine bestimmte Aufgabe lösen. Die erste Schicht (Input Layer) ist mit den Sinnen des Menschen vergleichbar und kann grundlegende Bedeutungen erkennen. In den nachfolgenden versteckten Schichten (Hidden Layers) werden die Erkenntnisse immer wieder kombiniert, bis in der Ausgabeschicht (Output Layer) ein Ergebnis vorliegt. Jede Schicht wird mit großen Datenmengen optimiert, um Ähnlichkeiten zu erkennen und eine Bedeutung zu erzeugen.

In der Spracherkennungstechnologie besteht der Input für die Eingabeschicht aus den zu interpretierenden Tönen, der erzeugten Audiodatei (Audio-Stream). Die verborgenen Schichten des DNN übernehmen jeweils die Rolle der Darstellung von Vokalen und Konsonanten, um Wörter zu definieren, indem sie beispielsweise Faktoren wie Stimmlage, Dialekt, Sprachmelodie und Sprache vs. Geräusche bestimmen. Diese versteckten Schichten kommen zusammen, um die interpretierte Folge von Wörtern mit den höchsten Gesamtwahrscheinlichkeiten zu bestimmen. Die Ausgabeschicht gibt dann die definierten diktierten Wörter aus. Beispiel: “Der Patient stellte sich heute mit Schmerzen in der rechten Schulter vor.”
Vorteile beim Einsatz von DNN in der Spracherkennung
Traditionell basiert die Spracherkennungstechnologie auf Algorithmen des Maschinellen Lernens, die vorgefertigte Merkmale verwenden, um Vorhersagen zu treffen. Ausgehend von der Eingabe der übertragenen Audiosignale wird z. B. durch vorgegebene Regeln, Lernen und Wahrscheinlichkeiten eine Ausgabesequenz von interpretierten Wörtern und Sätzen erstellt. Dies hat in den vergangenen Jahren sehr gut funktioniert und zu erheblichen Produktivitäts- und Effizienzsteigerungen geführt. Jedoch erfordert diese Methode viel Zeit, um individuelle Sprachprofile zu trainieren, und hat ihre Grenzen.
Mit der Einführung von DNN in der Sprachverarbeitung/-erkennung ist u. a. kein Anwender-Training mehr nötig. Aufgrund der riesigen Datenmengen, die für das Training der Modelle verwendet werden, sind die Ergebnisse mit denen früherer Technologien nicht vergleichbar – sie sind deutlich besser.
Fazit
Durch den Einsatz von DNN (Deep Neural Networks) lässt sich ein Höchstmaß an Erkennungsgenauigkeit und -kontinuität erzielen. Die Qualität der Spracherkennung wird nun nicht mehr von Akzenten und Umgebungsgeräuschen beeinflusst. Auch entfällt das bisher erforderliche anfängliche Training der Spracherkennung.
Die aktuellen Versionen der indicda Spracherkennung basieren bereits auf Deep Neural Network-Technologien.
Bildnachweis: Titelbild: © Adobe Stock, Bild 1: © DFC-SYSTEMS, Bild 2: © DFC-SYSTEMS