Von Alexa bis Siri: Funktionsweise und Einsatzgebiete von Sprachassistenten

Sprachassistenten

Sprachassistenten wie Amazon Alexa oder Google Assistant gehören zu den wichtigsten technologischen Trends der letzten Jahre. Manche der heute verfügbaren Sprachassistenten sind reine Softwareprogramme, die auf PCs oder Smartphones installiert werden können. Andere jedoch werden vom Hersteller mit eigens dafür optimierter Hardware ausgeliefert, und sind Teil des Konzepts „Smart Home“. 

In diesem Artikel wollen wir eine allgemeine Übersicht über die Funktionsweise und Features moderner Sprachassistenten geben, und einige aktuell am Markt verfügbare Modelle vorstellen. 

Grundlagen zur Funktionsweise von Sprachassistenten

Moderne Sprachassistenten nehmen die sprachlichen Eingaben durch ihre Nutzer wahr, und führen basierend darauf bestimmte Funktionen oder Befehle aus. Um die Sprachbefehle des Nutzers richtig zu erfassen kommt Spracherkennungs-Software zum Einsatz. Mit Hilfe so genannter Parsingalgorithmen werden dann die Spracheingaben in für den Sprachassistenten verwertbare Bestandteile zerlegt bzw. umgewandelt. Der Sprachassistent verfügt dabei über ein mehr oder weniger stark ausgeprägtes semantisches Verständnis, dass ihm erlaubt sprachliche Zusammenhänge und wichtige Schlüsselwörter zu erkennen. 

Basierend auf diesen sprachlichen Eingaben gibt der Assistent dann ebenfalls sprachliche Rückmeldungen aus. Meist werden dabei bestimmte Fragen des Nutzers beantwortet (z.B. „Wie wird das Wetter heute in Berlin?“), oder konkrete Befehle ausgeführt („Spiele das Lied XYZ ab“). 

In den meisten Fällen ist für die Verwendung eines Sprachassistenten eine aufrechte Internetverbindung notwendig, da ein Großteil der Daten auf Servern des jeweiligen Anbieters verarbeitet wird. Der Assistent greift dabei für seine ausgegebenen Antworten meist auf im Internet verfügbare Informationen zurück, und recherchiert so beispielsweise eigenständig auf Webseiten wie Google, Wikipedia oder Amazon, um eine sinnvolle Antwort auf die ihm gestellte Frage zu finden. 

Wofür Sprachassistenten heute verwendet werden

Sprachassistenten lassen sich sehr vielseitig einsetzen. Häufig werden sie einfach als praktische Hilfe im Alltag genutzt, um bei diversen Kleinigkeiten Zeit einzusparen oder Abläufe angenehmer zu gestalten. Aber auch größere und komplexere Aufgaben lassen sich mit Hilfe der Geräte durchführen. 

Ein Beispiel: Während man gerade mit etwas beschäftigt ist, oder ein Gespräch mit Freunden führt, möchte man irgend ein konkretes Detail zu einem Themengebiet wissen. Anstatt nun selbst zu recherchieren und z.B. mit dem Smartphone oder PC auf Google oder Wikipedia nachzulesen, fragt man einfach den Sprachassistenten danach. Dieser liest automatisch bestimmte Datenquellen im Internet aus, und gibt einem die wahrscheinlichste Antwort sofort wieder. Heute ist dieser Prozess binnen weniger Sekunden, d.h. ohne eine wirklich wahrnehmbare Wartezeit, durchführbar. 

Neben solchen Informationen in Textform können die Sprachassistenten auch rechnen. So kann man sie beispielsweise einfache Kalkulationen durchführen lassen, und man erhält ein exaktes Ergebnis ohne selbst kopfrechnen oder einen Taschenrechner bedienen zu müssen. 

Ein weiteres wichtiges Einsatzgebiet für Sprachassistenten ist der Bereich Unterhaltung. Aus hardwaremäßiger Sicht sind viele Sprachassistenten ähnlich einem Lautsprecher gebaut. Daher ist es naheliegend, dass sie auf Kommando auch Musik abspielen oder Radioprogramme wiedergeben können. 

Aufgrund ihrer ständigen Verbindung zum Internet taugen Sprachassistenten auch ganz gut als Kommunikationszentrale. Beispielsweise können viele Assistenten Personen kontaktieren, z.B. Kontakte aus dem Telefonbuch des Smartphones anrufen. Einige der Sprachassistenten erlauben sogar das Diktieren und Versenden, bzw. Empfangen und Vorlesen von E-Mails oder die Bedienung von Social Media Kanälen. 

Wer einen Sprachassistenten nicht nur als Einzelgerät, sondern als Bestandteil eines Smart Homes verwendet, kann über diesen unter Umständen auch diverse andere Geräte im Haushalt steuern, z.B. das Licht ein- oder ausschalten und die Heizung bzw. Klimaanlage regulieren. 

Im Auto eigenen sich Sprachassistenten hervorragend als Bestandteil einer Freisprecheinrichtung sowie zur Navigation. 

Nicht zuletzt können auch Unternehmen bestimmte Sprachassistenten für ihren Geschäftsalltag nutzen. So setzen Firmen beispielsweise die Assistenten in einigen Fällen für die Kommunikation mit Kunden, oder aber die Optimierung interner Arbeitsprozesse ein. Aufgrund des recht frühen Entwicklungsstadiums sind Sprachassistenten im Unternehmenseinsatz allerdings noch nicht so sehr verbreitet. Dies könnte sich in naher Zukunft jedoch ändern. 

Wichtige Sprachassistenten im Vergleich

An dieser Stelle stellen wir einige weit verbreitete Sprachassistenten vor, die heute am Markt verfügbar sind. Natürlich gibt es darüber hinaus auch noch weitere, teils weniger bekannte Sprachassistenten mit ähnlichen Features. 

Amazon Alexa

Amazon Alexa ist einer der am weitesten verbreiteten Sprachassistenten auf dem weltweiten Markt. Dabei beschreibt die Bezeichnung „Alexa“ in erster Linie nur die Sprachassistenten-Software, nicht aber eine häufig damit ausgelieferte Hardware (z.B. einen Smart Speaker). Umgangssprachlich werden aber häufig die Geräte als Ganzes (Hard- und Software) als „Alexa“ bezeichnet. 

Alexa kann Sprachbefehele entgegennehmen und beispielsweise Informationen ausgeben, Musik abspielen, To-Do Listen erstellen, Wetterberichte und Nachrichten ausgeben etc. Der Sprachassistent kann auch mit anderen Smart Devices verbinden werden und diee steuern. Alexa versteht und spricht einige unterschiedliche Sprachen, darunter Deutsch und Englisch. Amazon Alexa wurde erstmals im Jahr 2014 veröffentlicht. 

Amazon Echo

Amazon Echo ist ein Smart Speaker, d.h. eine eigens für den Sprachassistenten konzipierte Hardware, die von ihrem Aussehen her an einen Lautsprecher erinnert. Der Hersteller Amazon hat natürlich seinen Sprachassistenten Alexa auf dem Smart Speaker vorinstalliert. 

Es gibt Echo in einer Reihe unterschiedlicher Varianten (Dot, Plus, Show, Spot, Auto, Input, Buttons, Connect, Sub, Wall Clock), die zwar alle ungefähr die gleiche Grundfunktionalität, jedoch voneinander abweichende technische Ausstattung aufweisen. Einige davon sind als Erweiterungen zum regulären Echo konzipiert. 

Google Assistant

Auch der Suchmaschinenkonzern Google betreibt einen eigenen sprachassistenten, genannt Google Assistant. Der Google Assistant wurde im Jahr 2016 veröffentlicht und gilt als Nachfolger des 2012 entstandenen Services Google Now. Die Software ist insbesondere für Android Geräte ein beliebtes Tool, jedoch gibt es darüber hinaus auch andere Geräte, die sie verwenden (darunter auch eigene Smart Speaker und Smart Displays). 

Der Google Assistant ist prädestiniert dafür, Google Suchanfragen und sonstige Anweisungen für Google Services entgegen zu nehmen. Er kann jedoch auch Hardwareeinstellungen am Gerät durchführen (z.B. Bildschirmhelligkeit am Smartphone anpassen) und viele andere gängige Sprachassistenten-Befehle verarbeiten. 

Google Home

Google Home ist eine Produktreihe von von Google entwickelten Smart Speakern mit dem vorinstallierten Sprachassistenten Google Assistant. Die Geräte sind dem Konkurrenzprodukt Alexa Echo in Funktionsweise und Leistungsumfang sehr ähnlich. Auch Google Home kann z.B. allgemeine Wissensfragen beantworten oder Musik- und Audiodateien wiedergeben, sowie andere Smart Home Geräte steuern. 

Durch eine Technologie namens „far-field voice recognition“ sollen die Google Home Sprachassistenten auch Sprachbefehle wahrnehmen können, die in einem anderen Raum getätigt werden. Dies ist natürlich eher dann sinnvoll, wenn es bei dem jeweiligen Befehl um die Durchführung einer Tätigkeit geht (z.B. Licht ein- oder ausschalten), nicht aber wenn man eine Antwort auf eine Frage erhalten möchte. 

Apple Siri

Siri ist die sehr bekannte und beliebte Software zur Spracherkennung und -Verarbeitung von Apple. Sie kommt auf verschiedenen Apple Produkten zum Einsatz, insbesondere natürlich auf den iPhones. Darüber hinaus ist Siri jedoch auch für verschiedene iPads, iPods, Apple TVs, Apple Watches und auch neueren Apple Desktopcomputern (macOS Sierra) verfügbar. Siri erschien erstmals bereits im Jahr 2011, nachdem Apple 2010 die 2007 gegründete Firma Siri Inc. gekauft hatte. 

Wie auch die anderen hier vorgestellten Sprachassistenten kann Siri Nutzerfragen beantworten und bestimmte Befehle ausführen. Siri lässt sich auch mit den in macOS mitgelieferten Screenreader VoiceOver kombinieren, und so eine verbesserte Bedienung der Geräte für sehbehinderte Menschen realisieren. 

Microsoft Cortana

Der digitale Spracherkennungs-Assistent Cortana wurde im Jahr 2014 von Microsoft veröffentlicht. Die Software ist für Windows 10 verfügbar, und nimmt bei der Ersteinrichtung des Betriebssystem standardmäßig eine prominente Rolle ein. Außerdem ist Cortana für Windows Phone 8.1 und die Xbox One verfügbar. Aber auch Microsoft-fremde Produkte können Cortana einsetzen, so ist die Software beispielsweise auch für Android und iOS verfügbar. 

Anders als die meisten anderen Sprachassistenten verwendet Cortana die Microsofts Suchmaschine Bing zur Verarbeitung von Suchabfragen. Zur Verarbeitung der Sprachbefehle legt Microsoft personalisierte Sprachmodelle an. 

Bedenken hinsichtlich Datenschutz und Sicherheit

Der Betrieb von Sprachassistenten, die durchgehend mit dem Internet verbunden sind und Daten mit ihren Herstellerfirmen austauschen, ist aus Datenschutzsicht nicht unbedenklich. Auch die Einführung der Datenschutz-Grundverordnung der EU hat Auswirkungen auf Sprachassistenten. 

Für den Betrieb der meisten Sprachassistenten ist es notwendig, Daten an dessen Hersteller zu senden. Konzerne wie Google, Apple oder Amazon haben damit theoretisch Zugriff auf sehr weitreichende personenbezogene Daten ihrer Nutzer. Viele Anwender befürchten auch, durch die Smart Speaker permanent „abgehört“ werden zu können. 

Zwar gibt es Datenschutzerklärungen der entsprechenden Unternehmen, diese sind aber wahrscheinlich für sehr viele Nutzer zu komplex, lang undurchschaubar. Da die meisten Sprachassistenten verwenden außerdem Closed Source Software, somit ist die genaue Funktionsweise und die tatsächlich getätigte Datenverarbeitung aus technischer Sicht kaum überprüfbar. 

Eine interessante Alternative könnten deshalb quelloffene Sprachassistenten und Smart Speaker sein. Open Source Software ist öffentlich einsehbar, es lassen sich in diese also keine heimlichen „Hintertüren“ einbauen. Ein Beispiel für einen aktuellen Open Source Smart Speaker ist der „Mycroft Mark II“. Datenschutz und Privatsphäre sind wichtige Bestandteile des Grundkonzepts dieses Smart Speakers. 

Neben dem Datenschutz ist auch die technische Datensicherheit ein wichtiger Faktor beim Einsatz von Sprachassistenten: Da diese meist Zugriff auf Kontaktdaten (z.B. Telefonbuch, E-Mail Adressbuch) Zahlungsmittel (Onlineshops), und andere sensible Informationen haben, müssen Nutzer unbedingt darauf achten, unbefugten den Zugriff zu verwehren. Die Assistenten sollten beispielsweise so konfiguriert werden dass verfügbare Sperrbildschirme auch den Sprachassistenten sperren. 

Zusammenfassung

Sprachassistenten sind zweifelsfreie eine spannende Technologie, die in der absehbaren Zukunft weiter an Bedeutung gewinnen wird. Ihre Einsatzmöglichkeiten sind heute vielleicht noch eingeschränkt – dennoch können sie ihren Nutzern jedoch den Alltag wesentlich erleichtern. In Zukunft ist mit noch weitreichenderen Features und Möglichkeiten zu rechnen. 

Derzeit wird der Markt von einigen wenigen Platzhirschen dominiert: Beispiele dafür sind Alexa und Google Assistent im Bereich Smart Speaker sowie Siri und Cortana bei Desktops und Laptops. Hoffnungsvolle Open Source Projekte wie der Mycroft Mark II könnten vielleicht auch im Bereich Datenschutz den notwendigen Durchbruch bringen, und so Nutzer erreichen, die ihre Privatsphäre besonders ernst nehmen. Vielleicht steht also schon bald in fast jeder Wohnung ein Sprachassistent.