"Hey Siri, sag mir die Vorhersage für das Wochenende."

"Hey Cortana, was sind 3 Meilen in Kilometern."

"Alexa, hör meine Sprachnachrichten von Mom ab."

"Hey, Google, welches sind die besten Restaurants in New Orleans?"

Wir alle haben sie auf die eine oder andere Weise gehört, bei einem Freund, in einem Restaurant, im Auto oder in unseren eigenen vier Wänden. Die natürliche Interaktion zwischen menschlicher Stimme und Ihrem bevorzugten vernetzten Gerät ist jetzt Realität und nicht mehr nur Science-Fiction. Das Wichtigste dabei ist die Interaktion mit der menschlichen Stimme unter Verwendung der natürlichen Alltagssprache und nicht einer Programmiersprache. Die plötzliche Verbreitung von intelligenten Assistenten und Geräten zur Verbraucherautomatisierung, die unsere Sprache entschlüsseln können, wurde durch Fortschritte bei der Verarbeitung natürlicher Sprache ermöglicht.

Was ist natürliche Sprachverarbeitung?

Es gibt zwar viele Definitionen der natürlichen Sprachverarbeitung (oder NLP), aber die einfachste ist meiner Meinung nach die Fähigkeit von Maschinen, menschliche Sprache zu analysieren, zu verstehen und zu erzeugen. Dies wird durch die Kombination von Mustern und Verfahren aus der Informatik, der künstlichen Intelligenz und der Computerlinguistik erreicht(Wikipedia)

Wie funktioniert das alles?

Figure 1 - NLP Mechanics Flow Diagram

Abbildung 1 - Flussdiagramm der NLP-Mechanik[/caption]

Die Ergebnisse einer Frage, die Sie Ihrem Lieblings-Digitalassistenten gestellt haben, mögen wie Zauberei erscheinen, aber es läuft jedes Mal eine logische Abfolge von Ereignissen ab (Abbildung 1). Wenn Sie eine Frage durch eine gesprochene Äußerung wie "Alexa, überprüfe meine Sprachnachrichten von Mama" stellen, geschieht in der NLP-Engine Ihres Geräts Folgendes:

1. Spracherkennung - Der erste Schritt ist die Digitalisierung der Stimme und dann die Zerlegung oder das Parsing der natürlichen Sprache in der gesprochenen Frage, so dass eine Maschine jedes Wort identifizieren kann. Aufgrund unterschiedlicher gesprochener Akzente, unerkannter Intonation oder sogar Hintergrundgeräuschen ist die Genauigkeit dieser Übersetzung nicht immer hundertprozentig.

In der Vergangenheit war dies auch deshalb eine Herausforderung, weil die Computer nicht schnell genug waren, um mit der gesprochenen Sprache Schritt zu halten und die Erkennung durchzuführen. Moderne NLP-Engines nutzen hochskalierbare Rechendienste in der Cloud und wenden Algorithmen zur automatischen Spracherkennung (ASR) an, um Sätze schnell in ihre einzelnen Wörter zu zerlegen, die dann analysiert werden können. Ein solcher Dienst, der Alexa antreibt, heißt Amazon Lex, und inzwischen gibt es Cloud-Dienste von allen großen Anbietern: Microsoft Cognitive Services, Google Cloud Natural Language.

Diese Dienste bieten Anwendungsentwicklern nicht nur einen integrierten Cloud-Dienst zur Durchführung von ASR, sondern führen auch die Analyse und die statistische Konfidenzbewertung durch, die notwendig sind, um die Wörter zu verstehen und die Absicht zu bestimmen.

2. Natural Language Understanding - Dieser Schritt erfolgt unmittelbar nachdem die Wörter geparst und in Maschinensprache übersetzt wurden. Das Verstehen natürlicher Sprache (Natural Language Understanding, NLU) ist bei weitem der schwierigste Schritt in der NLP-Ereigniskette, da das System die Absicht der ursprünglichen Frage des Benutzers verstehen muss. Dies wird durch die Tatsache erschwert, dass natürlich gesprochene Sprache mehrdeutig sein kann, so dass NLU-Algorithmen eine Vielzahl von lexikalischen Analysemodellen verwenden müssen, um Wörter zu disambiguieren. Zum Beispiel könnte "prüfen" ein Substantiv sein (z. B. eine Rechnung in einem Restaurant) oder ein Verb (z. B. etwas prüfen). Noch komplexer wird es, wenn man Zahlen in die Sprache einbezieht. Zum Beispiel könnte "2017" das Jahr 2017 oder die Zahl zweitausendundsiebzehn bedeuten.

Mit einer NLP-Engine wie Lex erstellen Entwickler Regeln, mit denen sie Anwendungen "trainieren", diese Regeln korrekt anzuwenden, um die Absicht des Benutzers zu ermitteln. Natürlich stellt jeder Mensch seine Fragen anders. Daher ist es möglich, dass mehrere Fragen die gleiche Absicht haben. Zum Beispiel könnten die folgenden Äußerungen alle dieselbe Absicht haben, nämlich die Sprachnachrichten meiner Mutter abzuspielen:

"Alexa, höre meine Sprachnachrichten von meiner Mutter ab" "Alexa, spiele meine Nachrichten von meiner Mutter ab" "Alexa, spiele Sprachnachrichten von meiner Mutter ab" "Alexa, ich möchte meine Sprachnachrichten von Mama abhören " "Alexa, Nachrichten von Mama abspielen"

Sobald die Absicht verstanden wurde, kann eine Aktion ausgelöst werden, z. B. die Ausführung von Befehlen zum Filtern und Abrufen von Sprachnachrichten aus meinem Posteingang, die meine Mutter hinterlassen hat, und die anschließende Wiedergabe über den Lautsprecher meines Geräts. Im Zeitalter des Internets der Dinge, in dem viele Geräte miteinander verbunden sind, könnten diese Befehle die Ausführung von Diensten anderer Geräte oder Anwendungen auslösen.

3. Generierung natürlicher Sprache - Gespräche sind selten einseitig, und um interaktive Antworten geben zu können, müssen Computer in der Lage sein, mit dem Nutzer zu kommunizieren. Dies wird als Natural Language Generation (NLG) bezeichnet. Man kann sich das so vorstellen, dass es in die entgegengesetzte Richtung arbeitet als das, was wir gerade beschrieben haben. Bei NLG wird Maschinensprache mit Hilfe einer Reihe von grammatikalischen Regeln und eines Lexikons in normale Wörter und Sätze übersetzt. Der letzte Schritt besteht in der Regel darin, den Text mithilfe eines linguistischen Modells in Audio zu synthetisieren, damit er einer menschlichen Stimme ähnelt (Text-to-Speech). Wiederum am Beispiel von AWS gibt es einen Dienst namens Polly, der die Umwandlung von Text in lebensechte Sprache erleichtert, so dass Bestätigungen oder zusätzliche Fragen in natürlicher Sprache zurückgesendet werden können.

Wohin wird uns das führen?

Obwohl die Nachfrage nach und der Einsatz von NLP in Verbraucheranwendungen zugenommen hat, gilt dies nicht für Unternehmensanwendungen. Bei Verbraucheranwendungen ist der Umfang des Vokabulars und die Komplexität der Absichten geringer, angefangen bei alltäglichen Aufgaben. In Geschäftsanwendungen ist das erforderliche Vokabular jedoch viel breiter, wenn man die Sprache des Fachgebiets berücksichtigt, und die Komplexität der Absichten variiert je nach Geschäftsanwendung erheblich. Die Zweideutigkeit, die Äußerungen in der Geschäftswelt oft innewohnt, kann sehr komplex sein. Denken Sie zur Veranschaulichung an eine einfache Äußerung eines Benutzers wie "Zeigen Sie mir die leistungsstärksten Dienste in Q1". Das ist ziemlich mehrdeutig: Was ist "Q1", "top" oder "performing", und denken Sie an die möglichen alternativen Möglichkeiten, diese Frage zu stellen (Permutation von Äußerungen)?

Spannend ist, dass dieselben NLP-Technologien und Entwicklungsframeworks, die für Verbraucherprodukte wie Echo und Google Home entwickelt wurden, auch für Entwickler von Unternehmensanwendungen zur Verfügung stehen. In dem Maße, in dem diese Frameworks weiterentwickelt und verfeinert werden, steht die Gesamtheit der erstellten NLU-Modelle auch den Unternehmensanwendungen zur Verfügung, um darauf aufzubauen.

Eine neue Dimension der Benutzererfahrung und Interaktion ist im Bereich der Unternehmensanwendungen im Entstehen begriffen, die wiederum von den Erwartungen der Verbraucheranwendungen angetrieben wird. Im Laufe der Zeit werden sprachgesteuerte Benutzererfahrungen, die für die Benutzer natürlicher sind, die Benutzererfahrung in einer Weise verändern, die mit der durch grafische Benutzeroberflächen eingeführten Störung vergleichbar ist. Es ist eine aufregende Zeit, um neue Geschäftsanwendungen zu entwickeln!