Telefon E-Mail Serviceanfrage Suche
 
TELEFON

Rufen Sie uns an unter +49 (0)89 461 487-0

Unsere Service-Hotline +49 (0)89 461 487-222

 
SERVICEANFRAGE

    Deep Neural Networks (DNN): Welche Funktionen und Vorteile bieten sie in der Spracherkennung?

    eural Networks (DNN): Welche Funktionen und Vorteile bieten sie in der Spracherkennung?

    In den vergangenen Monaten hat sich die Spracherkennungstechnologie zu einem äußerst leistungsfähigen Werkzeug entwickelt, das neben der Speech-to-Text Funktion auch die Art und Weise, wie wir zukünftig mit Computern, Smartphones und anderen Geräten interagieren, maßgeblich verändern wird. In der Vergangenheit basierte die Technologie zur Spracherkennung auf begrenzten Statistiken und Wahrscheinlichkeiten. Heute hat sich die Sprachtechnologie durch den Einsatz von Deep Learning und Neuronalen Netzen (DNN – Deep Neural Network) radikal weiterentwickelt.

    Lesedauer: 4 min

    Inhaltsverzeichnis

    Was sind neuronale Netze (DNN)?
    Vorteile beim Einsatz von DNN in der Spracherkennung
    Fazit

    Was sind neuronale Netze?

    Ein neuronales Netz ist ein lernfähiger Algorithmus, der mithilfe miteinander verbundener Knoten oder Neuronen, ähnlich dem menschlichen Gehirn, in einer geschichteten Struktur Lernprozesse durchführt. Ein Neuron ist hierbei die einfachste Einheit eines neuronalen Netzes. Hier findet die Informationsverarbeitung statt. Jedes Neuron kombiniert mehrere Eingangssignale, um ein Ausgangssignal zu erzeugen. Diese werden mit mehreren Schichten kombiniert, die jeweils eine bestimmte Aufgabe lösen. Die erste Schicht (Input Layer) ist mit den Sinnen des Menschen vergleichbar und kann grundlegende Bedeutungen erkennen. In den nachfolgenden versteckten Schichten (Hidden Layers) werden die Erkenntnisse immer wieder kombiniert, bis in der Ausgabeschicht (Output Layer) ein Ergebnis vorliegt. Jede Schicht wird mit großen Datenmengen optimiert, um Ähnlichkeiten zu erkennen und eine Bedeutung zu erzeugen.

    In der Spracherkennungstechnologie besteht der Input für die Eingabeschicht aus den zu interpretierenden Tönen, der erzeugten Audiodatei (Audio-Stream). Die verborgenen Schichten des DNN übernehmen jeweils die Rolle der Darstellung von Vokalen und Konsonanten, um Wörter zu definieren, indem sie beispielsweise Faktoren wie Stimmlage, Dialekt, Sprachmelodie und Sprache vs. Geräusche bestimmen. Diese versteckten Schichten kommen zusammen, um die interpretierte Folge von Wörtern mit den höchsten Gesamtwahrscheinlichkeiten zu bestimmen. Die Ausgabeschicht gibt dann die definierten diktierten Wörter aus. Beispiel: “Der Patient stellte sich heute mit Schmerzen in der rechten Schulter vor.

    Vorteile beim Einsatz von DNN in der Spracherkennung

    Traditionell basiert die Spracherkennungstechnologie auf Algorithmen des Maschinellen Lernens, die vorgefertigte Merkmale verwenden, um Vorhersagen zu treffen. Ausgehend von der Eingabe der übertragenen Audiosignale wird z. B. durch vorgegebene Regeln, Lernen und Wahrscheinlichkeiten eine Ausgabesequenz von interpretierten Wörtern und Sätzen erstellt. Dies hat in den vergangenen Jahren sehr gut funktioniert und zu erheblichen Produktivitäts- und Effizienzsteigerungen geführt. Jedoch erfordert diese Methode viel Zeit, um individuelle Sprachprofile zu trainieren, und hat ihre Grenzen.

    Mit der Einführung von DNN in der Sprachverarbeitung/-erkennung ist u. a. kein Anwender-Training mehr nötig. Aufgrund der riesigen Datenmengen, die für das Training der Modelle verwendet werden, sind die Ergebnisse mit denen früherer Technologien nicht vergleichbar – sie sind deutlich besser.

    Fazit

    Durch den Einsatz von DNN (Deep Neural Networks) lässt sich ein Höchstmaß an Erkennungsgenauigkeit und -kontinuität erzielen. Die Qualität der Spracherkennung wird nun nicht mehr von Akzenten und Umgebungsgeräuschen beeinflusst. Auch entfällt das bisher erforderliche anfängliche Training der Spracherkennung.

    Die aktuellen Versionen der indicda Spracherkennung basieren bereits auf Deep Neural Network-Technologien.


    Herr Feiler

    Dennis Feiler, Geschäftsführer DFC-SYSTEMS GmbH

    dennis.feiler@dfcsystems.de

    Bildnachweis: Titelbild: © Adobe Stock, Bild 1: © DFC-SYSTEMS, Bild 2: © DFC-SYSTEMS