Voice Key Insights – egta insight

Ein Leben ohne Voice Assistants ist für viele inzwi­schen gar nicht mehr vor­stell­bar. Wir berich­ten über die Voice Key Insights der egta-Studie.

Beitragsbild_egta_Voice

Quel­le: www.pixabay.com von chaitawat

Voice im Alltag

Es beginnt bereits kurz nach dem Auf­ste­hen. Am Früh­stücks­tisch wird Alexa nach den neu­es­ten Nach­rich­ten oder dem Lieb­lings­ra­dio­sen­der gefragt. Wäh­rend der Fahrt zur Arbeit infor­miert das Auto über den bevor­ste­hen­den Stau. Mit­tags wird über Siri eine Pizza bestellt und abends dem Fern­se­her befoh­len, die Lieb­lings­sen­dung zu zei­gen. Somit lässt sich inzwi­schen sagen, dass Sprach­erleb­nis­se sich zuneh­mend in den All­tag inte­grie­ren. Aber Voice bie­tet nicht nur Wer­be­trei­ben­den ver­schie­de­ne Mög­lich­kei­ten, son­dern eröff­net auch Fern­seh- und Radio­un­ter­neh­men sowie deren Ver­kaufs­häu­sern eine Viel­zahl von Mög­lich­kei­ten. Zum Bei­spiel, um die Benut­zer­er­fah­rung zu berei­chern, neue Pro­duk­te vor­zu­stel­len, sprach­ak­ti­vier­te Mar­ken­in­hal­te bereit­zu­stel­len und vie­les mehr.

Was ist Voice?

Was noch vor weni­gen Jah­ren undenk­bar war, ist inzwi­schen All­tag. Nach der Schaf­fung des World Wide Web in den 90er Jah­ren, der Ein­füh­rung von Social Media ab 2007 und der Ein­füh­rung von Smart­phones in den letz­ten Jah­ren, ist das Auf­kom­men von Spra­che nun die vier­te große Ver­än­de­rung im Ver­brau­cher­ver­hal­ten in den letz­ten 30 Jah­ren. Wäh­rend das Gespräch mit einem Com­pu­ter noch vor weni­gen Jah­ren nicht mög­lich schien, ist es jetzt dank der vie­len Fort­schrit­te bei Sprach­er­ken­nung, maschi­nel­lem Ler­nen und intel­li­gen­ter Laut­spre­cher-Tech­no­lo­gie, gepaart mit intel­li­gen­ten per­sön­li­chen Assis­ten­ten, zur Rea­li­tät geworden.

Voice Assis­ten­ten benut­zen zwei ver­schie­de­ne Zwei­ge der künst­li­chen Intel­li­genz: Zum einen gibt es die Sprach­er­ken­nung und zum ande­ren die Ver­ar­bei­tung natür­li­cher Spra­che (NLP). Wenn ein Benut­zer einen Befehl an einen intel­li­gen­ten Laut­spre­cher sen­det, erkennt der Sprach­er­ken­nungs­teil die Schall­wel­len und wan­delt sie in geschrie­be­ne Wör­ter um. Der NLP-Teil nimmt dann diese Wör­ter und ver­ar­bei­tet die darin ent­hal­te­nen Befehle.

Sprach­as­sis­ten­ten befin­den sich jedoch noch immer in den Anfän­gen, ins­be­son­de­re für Werbe‑, Medi­en- und Unter­hal­tungs­zwe­cke. Die am häu­figs­ten ver­wen­de­ten Sprach­be­feh­le die­nen in der Regel prak­ti­schen Zwe­cken, wie dem Ein­schal­ten von Musik, dem Hören des Wet­ter­be­richts oder dem Ein­stel­len von Timern.

Warum Voice?

Spra­che hat meh­re­re wesent­li­che Vorteile:

  • Geschwin­dig­keit:
    Eine kürz­lich von Stan­ford durch­ge­führ­te Stu­die hat gezeigt, dass Voice-to-Text drei­mal schnel­ler ist, als das Tip­pen auf dem Tele­fon, selbst wenn man die Zeit berück­sich­tigt, die für Kor­rek­tu­ren benö­tigt wird.
  • Frei­spre­chen:
    In eini­gen Fäl­len, z. B. beim Auto­fah­ren oder Kochen, ist Spre­chen viel prak­ti­scher und siche­rer als Wischen oder Tippen.
  • Intui­ti­vi­tät:
    Spre­chen ist für jeden selbst­ver­ständ­lich, noch bevor wir lesen oder schrei­ben kön­nen. Anstel­le einer neuen Schnitt­stel­le ist die Sprach­tech­no­lo­gie die ältes­te Schnitt­stel­le, die es gibt. Selbst Benut­zer, die mit die­ser neuen Tech­no­lo­gie weni­ger ver­traut sind, kön­nen auf natür­li­che Weise antworten.
  • Empa­thie:
    Der Ton einer Nach­richt (Sar­kas­mus, Wut, Freu­de, etc.) kann in einer E‑Mail oder Text­nach­richt manch­mal schwer zu beur­tei­len sein. Im Gegen­satz zum geschrie­be­nen Wort umfasst die Stim­me Ton, Laut­stär­ke, Into­na­ti­on und Sprach­tem­po – und ver­mit­telt so viele Informationen.

Mehr­wert für Unternehmen

Aber auch Unter­neh­men oder Mar­ken kön­nen von den Fort­schrit­ten in die­sem neuen Bereich pro­fi­tie­ren. Es gibt bereits meh­re­re Mög­lich­kei­ten, wie Mar­ken mit ihren Ver­brau­chern kommunizieren:

  • Nut­zen mit Persönlichkeit:
    Durch Stim­me kön­nen Mar­ken Nut­zen und Per­sön­lich­keit ver­bin­den. Ein gutes Bei­spiel ist Sony Music, das mit der Stim­me von Palo­ma Faith, einem ihrer bekann­ten Auf­nah­me­künst­ler, eine Gute-Nacht-Story-Anwen­dung ent­wi­ckelt hat.
  • Bekannt­heit schaffen:
    Stim­me kann die Mar­ken­be­kannt­heit stei­gern und Benut­zer über neue Pro­duk­te infor­mie­ren, wie dies mit Nike der Fall war, das eine Sprach-App ent­wi­ckelt hat, mit der Fern­seh­zu­schau­er ein Paar Turn­schu­he bestel­len kön­nen, die wäh­rend eines Bas­ket­ball­spiels vor­ge­stellt werden.

Ähn­lich wie das Inter­net in den 90er Jah­ren bie­tet die Sprach­tech­no­lo­gie einen rie­si­gen Pool an Mög­lich­kei­ten. Wenn Sprach­as­sis­ten­ten dank der Fort­schrit­te in der künst­li­chen Intel­li­genz kon­text­be­zo­ge­ner wer­den, wer­den sie pro­ak­ti­ver und nicht nur reak­ti­ver. Sie ent­wi­ckeln sich von einer FAQ, über Gesprä­che, bis hin zu einem wirk­lich inter­ak­ti­ven Assis­ten­ten, der das Leben der Ver­brau­cher ver­bes­sert. Mit zuneh­men­der Akzep­tanz der Stim­me durch die Ver­brau­cher und einer immer noch begrenz­ten Menge an Inhal­ten im Sprach­öko­sys­tem, stellt es eine enor­me Chan­ce für Unter­neh­men dar.

Skills

Es ist wich­tig zu ver­ste­hen, dass jede Platt­form einen ande­ren Namen für ihre Sprach­an­wen­dun­gen hat. Ama­zon hat sich für “Skills” ent­schie­den, Goog­le für “Actions” und Sam­sung für “Cap­su­les”. Die Ent­wick­ler­platt­for­men von Ama­zon und Goog­le – Alexa Skills Kit (ASK) und Actions on Goog­le – bie­ten eine umfas­sen­de Samm­lung von Tools, Doku­men­ta­tio­nen, APIs und Code-Bei­spie­len, um den Auf­bau von Fähig­kei­ten und die Ent­wick­lung von Funk­tio­nen für die­je­ni­gen zu ver­ein­fa­chen, die eine Sprach­an­wen­dung erstel­len und star­ten möch­ten. Somit gehört auch die Anwen­dung von Musik­fä­hig­kei­ten dazu. Das ist eine Fähig­keit, mit wel­cher der Benut­zer Audio­in­hal­te aus­wäh­len, anhö­ren und auch steu­ern kann.

Pod­cas­ting stieg um fast 5 % in Bezug auf “jemals erprob­te” und “monat­lich akti­ve Benut­zer”. Auch die Audio-Unter­hal­tung ver­zeich­net einen Auf­wärts­trend. Zudem ist das Hören von Radio über intel­li­gen­te Laut­spre­cher bei „jemals erprob­ten“ und bei „monat­lich akti­ven Benut­zern“ um etwa 4 % gestie­gen. Bei den “täg­lich akti­ven Benut­zern” jedoch um 2 %.

Fazit

Aus den jüngs­ten Anwen­dungs­fäl­len geht her­vor, dass Voice für Wer­bung und Medi­en eine glän­zen­de Zukunft hat. Im Rah­men der der­zei­ti­gen Mög­lich­kei­ten wird die Ver­wen­dung von Spra­che als wei­te­res Mit­tel zur Kom­mu­ni­ka­ti­on und Errei­chung von Kun­den zuneh­men. Dabei spie­len Early Adop­ters eine wesent­li­che Rolle bei der Auf­klä­rung des Mark­tes. Sie zei­gen, wie Spra­che effek­tiv ein­ge­setzt wer­den kann und ebnen ande­ren Mar­ken den Weg für die Umset­zung von Sprach­initia­ti­ven. Mit zuneh­men­der Ver­wen­dung von Sprach­be­feh­len wird es für Medi­en­un­ter­neh­men und ande­re Unter­neh­men zu einer Not­wen­dig­keit, benut­zer­de­fi­nier­te Fähig­kei­ten und Aktio­nen zu ent­wi­ckeln, um sich selbst ver­füg­bar zu machen, das Bran­ding zu ermög­li­chen, die Benut­zer­er­fah­rung zu ver­bes­sern und Mög­lich­kei­ten der Mone­ta­ri­sie­rung zu nutzen.

Die gesam­te Stu­die der egta kön­nen Sie in der Publi­ka­ti­on “egta insight – Voice: Key Insights for Media Com­pa­nies into an Emer­ging Tech­no­lo­gy” einsehen.

Foto Blog-Autorin Julia Bär