In diesem Beitrag werde ich über ein Thema sprechen, was alles bisher Dagewesene im Digitalen Zeitalter ändern wird: Conversations as a Platform oder kurz Bots.

Es geht dabei um die natürliche Interaktion mit der Technologie in Form von Konversationen. Anders gesagt, es geht um Sprache als das Haupt-Interaktionsmodell für den Austausch mit Technologie. Somit werden die Anzahl der Klicks, Mausbewegungen und UI-Interaktionen dramatisch reduziert und sogar aufgehoben.

Damit ermöglicht Sprache als „Human Interface“ einen viel natürlicheren Austausch mit Technologie. Wenn die entsprechenden Modelle ausgreift genug sind, können die Nutzer so zielgerichteter und schneller an die jeweils gewünschten Informationen zu kommen.

Bots sind hierfür also die neuen Anwendungen – die neuen Apps – mit denen Sie sich unterhalten können. Statt unterschiedliche Apps oder Webseiten separat abzurufen, können Sie diese als Bot innerhalb eines so genannten Canvas abfragen. Ein Canvas kann eine Webseite sein oder – und das ist die große Wette der IT Giganten – die jeweiligen Messenger. Egal ob Facebook Messenger, WhatsApp, Allo, WeChat, Line oder Skype – alle dienen in Zukunft als zentrale Anlaufstelle für den Benutzer. Und werden so dank Artificial Intelligence („AI“) immer schlauer und lernen selbständig, was der Benutzer denn möglicherweise alles so möchte (und ja, da wird es natürlich eine entsprechende Lernkurve geben, die niemals beendet sein dürfte).  Das bedeutet aber auch, dass es einen heftigen Wettkampf um die Nutzer geben wird sowie um Bots von Drittanbietern.  Die möchte jedes Gateway – also insbesondere die Messenger, aber auch die neuen Dienste wie Amazons Echo oder Googles Home sowie Microsofts kommender Home Hub – natürlich gerne exklusiv für sich beanspruchen.

Bots als digitale Assistenten sind die neuen Meta-Apps und damit quasi die neuen Browser. Somit wird künstliche Intelligenz in alle unsere Interaktionen mit IT-Systemen integriert – und damit in den Alltag. Wenn wir AI Systeme entwickeln, die die menschlichen Fähigkeiten erweitert, sprechen wir nicht über Mensch gegen Maschine. Sondern es handelt sich um Mensch mit Maschine, wobei die jeweiligen Stärken genutzt werden sollen.

Das Konzept dahinter besteht darin, die Kreativität, Empathie, Emotion und das Urteilsvermögen der Menschen mit schneller Rechenzeit sowie der Möglichkeit, aus einer große Menge an Daten Rückschlüsse zu ziehen, auf eine intelligente Art und Weise zusammenzubringen. Menschen und Maschine können sich gegenseitig hervorragend unterstützen und ergänzen und die Gesellschaft in Summe weiterbringen. Wir müssen aber auch das Vertrauen in unsere Technologien nachhaltig aufbauen und dafür sorgen, dass keinerlei Formen von Missbrauch möglich sind. Deswegen sind klare Richtlinien in den Bereichen Datenschutz, Transparenz, Sicherheit und Compliance für alle Anbieter eine unabdingbare Basis, um Erfolg zu haben.

Wie erratisch eine neue Technologie zu Beginn sein kann, zeigt das Beispiel des Versuch-Bots „Tay“.. ( https://techcrunch.com/2016/03/24/microsoft-silences-its-new-a-i-bot-tay-after-twitter-users-teach-it-racism/ ).

Conversations as a Platform besteht hauptsächlich aus drei Teilen:

  • Menschen, die mit Menschen reden. Skype Translate ist ein gutes Beispiel dafür, wie Technologie Menschen unterstützen kann, die unterschiedliche Sprachen sprechen
  • Anwesenheit bzw. die Möglichkeit, Gespräche zu erweitern/zu verbessern, indem man sich Remote einwählen kann
  • Persönliche Assistenten und Bots – also ein persönlicher Assistent, der den Nutzer und seine Gewohnheiten kennt und diesen bei alltäglichen aber auch besonderen Aufgaben unterstützen

Ich gehe davon aus, dass wir in Zukunft ein vielfältiges Ökosystem haben werden, das folgende Beziehungen bzw. Interaktionsformen enthalten wird:

  • Mensch – Mensch
  • Mensch – Persönlicher Assistent
  • Mensch – Bot
  • Persönlicher Assistent – Bot (Digitale Assistenten können für bestimmte Aufgaben Bots aufrufen)
  • Bot – Bot
  • Digitaler Assistent – Digitaler Assistent (zum Beispiel bei der Vereinbarung von Terminen oder etwa Einkaufslisten)

Das ist die Welt, die wir in ein paar wenigen Jahren sehen werden.

Die menschliche Sprache ist mächtig und wir wollen sie für unterschiedliche Mensch-Maschine-Schnittstellen nutzen. Wir werden künstliche Intelligenz und Machine Learning („ML“) nutzen, um Computern menschliche Sprache und das Verständnis für Konversationen beizubringen.

Somit werden Technologienuns besser helfen können, sowohl in der Arbeit als auch im alltäglichen Leben Dinge zu erledigen.

Nachfolgend möchte ich paar Szenarien vorstellen, die entweder bereits Realität oder gar nicht so weit weg sind:

  • Der Skype Translator ermöglicht schon heute, Sprachanrufe in sieben Sprachen online zu übersetzen und in über 50 Sprachen beim Chatten zu verwenden
  • HoloSkype – mit Skype für HoloLens können Kontakte das sehen und hören, was die Gegenseite sehen und hören kann. Außerdem können Hologramme direkt in ihre unmittelbare Umgebung zeichnen.
  • Xiaoice ist ein chinesischer Bot, der in Shanghai im Morgenprogramm die Wetteransagen macht und heute schon von Millionen von Menschen genutzt wird
  • Wir haben Siri, Alexa und Cortana, die persönliche Assistentinnen der verschiedenen Plattformen, die uns im Alltag begleiten und uns beim Erledigen von Aufgabe helfen können

Microsoft und Amazon stellen die Intelligenz, die in den jeweiligen Produkten eingesetzt werden, auch der breiten Öffentlichkeit zur Verfügung. Cognitive Services demokratisiert Microsoft Machine Learning. Die mächtigen APIs können einfach und schnell eingesetzt werden, ohne dass dafür Expertenwissen zu ML benötigt wird.

Conversation as a Plattform wird die Art und Weise, wie wir uns mit Menschen verbinden, für immer verändern.

Cortana ist nicht nur hilfreich, um Erinnerungen zu setzen oder den Wecker zu stellen. Sie (Cortana ist eine Dame) kann uns auch in vielen anderen Dingen unterstützen.

Nehmen wir einmal an, dass ich gleich in ein Meeting gehen möchte , vorab aber noch bestimmte Informationen benötige, etwa eine Prognose der Verkäufe in den nächsten sieben Tagen. Und genau das gebe ich dann an Cortana als Sprachbefehl – etwa  „Zeig mir die geplanten Verkäufe im Einzelhandel für die nächsten sieben Tage“. Und sofort werden die entsprechenden Daten fertig aufbereitet ausgeben. Keine zeitaufwändige Suche mehr in Datenbanken, kein händisches Excel – hier machen Bots das Arbeitsleben klar besser.

Cortana ist also eine persönliche Assistentin, die mich wirklich gut kennt. Natürlich kann sie aber (genau wie eine reale Assistenz) nicht jede einzelne Aufgabe selbst erledigen, sondern muss auch delegieren. Und genau an dieser Stelle springen die Bots ein.

Wir können eigene Bots recht einfach erstellen und dem Nutzer so eine natürliche Interaktion in unterschiedliche Situationen anbieten, wie z.B. über Text/SMS, Skype, Facebook, Slack, Email, Telegram, Web Chat und andere.

Das Bot Framework ist ein Microsoft-Dienst (Bot Connector) und ein Open-Source Bot Builder SDK. Beides ist auf dem Entwicklerportal verfügbar unter https://dev.botframework.com/

Das Bot Framework ist aber nur eines von vielen Werkzeugen, das Microsoft für die Implementierung von Bots anbietet.

Betrachten wir ein Beispiel, wie Unternehmen das Bot-Framework nutzen, um eine natürliche Interaktion mit deren Kunden zu ermöglichen.

Flugvergleich und buchen mit dem Skyscanner Bot.

 

Das Booking-Erlebnis ist viel intuitiver. Um dem Bot Intelligenz, wie z.B. natürliche Sprache beizubringen, kann die Cognitive Services API aus dem Bot Framework genutzt werden.

Cognitive Services sind eine Sammlung an REST APIs und SDKs. Damit können Entwickler, und zwar auch ohne Machine Learning-Experten zu sein, intelligente Funktionen wie etwa Bild-, Sprach- und Texterkennung in ihre Anwendungen integrieren. Zurzeit finden sich im Bot Framework 22 APIs, die in fünf Kategorien unterteilt sind.

Die Face API wird für Gesichtserkennung sowie für die Einschätzung des Alters der Nutzer angewendet. Abhängig von der abgeleiteten Altersgruppe können dann zum Beispiel bestimmte passende Angebote vorgestellt werden.

Eine weitere Möglichkeit sind die Speech Recognition- sowie die Text Analysis-API verwenden um die Meinung der Nutzer zu verstehen und das Angebot entsprechend anzupassen.

Ein weiteres Beispiel ist der Caption Bot. Dabei wird ein beliebiges Bild hochgeladen und der Caption Bot kann dank der Vision API analysieren, was im Bild zu sehen ist und dies dann mittels der LUIS API in einer natürlichen Sprache beschreiben.

Mit den Cognitive Services kann Machine Learning also einfach und schnell in eigene Projekte integriert und damit ganz neue Ideen verwirklicht werden.

Unser Kollege von Microsoft UK macht das tatsächlich, um das Leben von Sehbehinderte zumindest ein bisschen zu vereinfachen und zwar über die eigens entwickelte Seeing AI App.

https://www.youtube.com/watch?v=R2mC-NUAmMk  

Ich persönlich finde das beeindruckend und ich bin gespannt, wie die Cognitive APIs in naher Zukunft eingesetzt werden. Im Vordergrund steht dabei unsere Mission: Empower every person and every organization on the planet to achieve more.

Als Entwickler habt ihr die Gelegenheit, selber solche innovativen Erlebnisse und natürliche UIs zu entwickeln und einer globalen Nutzerschaft näher zu bringen.

Und mit dem Bot Framework könnt ihr gleich starten. Schaut einfach unter https://dev.botframework.com/ und fangt mit dem Coden an. Viel Spaß !

 

Bedanken möchte ich mich bei Gerrit Pohl (mail@gerritpohl.de) und Nicoleta Mihali (@nikk_mihali). Gerrit hat mir geholfen, den Text von dem Blogpost sprachlich zu überarbeiten und zu redigieren. Nicoleta hat die ursprüngliche, die diesem Blogeintrag zugrundeliegende Präsentation erdacht. Herzlichen Dank an Euch beide !