„Alexa, lass uns ein Spiel spielen!“
Wie wir auf die Idee kamen, Campfire zu entwickeln, eine Plattform für interaktive Hörspiele für Smart Speaker. Von Torben Ludwig, CEO und Mitgründer von Frozen Donkey
Als Amazon mit Alexa den ersten massentauglichen Smart Speaker auf den Markt brachte, dachte ich nicht "Oh, damit kann ich sicher toll Druckerpapier bestellen", sondern "Wow, das eröffnet einen ganz neuen Weg, interaktive Geschichten zu erzählen". Der Wunsch, aus der Idee ein Projekt zu machen, manifestierte sich bei einem Besuch im Disneyland Paris, wo ich durch miniaturisierte Landschaften fuhr und Märchen live anschauen konnte. Schon beim Anstehen in der Warteschlange kam mir der Gedanke, dass es richtig cool wäre, professionell gesprochene Geschichten beeinflussen zu können und sie dadurch erlebbarer zu machen.
Das Potenzial von Smart Speakern wie Amazon Echo, Google Home oder Apple HomePod im Bereich Games war in meinen Augen zu dem Zeitpunkt noch nicht erkannt worden. Einen riesigen Vorteil sah ich darin, dass die Bedienung per Sprachbefehl kaum Hürden bietet und für Groß und Klein gut zu bewältigen ist. Was wäre also, wenn man intelligente Lautsprecher für Abenteuerspiele oder interaktive Krimis verwendet? Und wie müssten solche sprachgesteuerten Spiele konkret aussehen?
Als ich Figge von meiner Idee erzählte, war er sofort infiziert. Wir stellten uns den Voice Assistant als Märchenonkel und den Smart Speaker wie ein Lagerfeuer vor, um das sich die ganze Familie oder Freunde versammeln und gemeinsam Geschichten lauschen. Aber nur Zuhören reicht nicht, es muss interaktiv sein! Vielleicht ist die beste Metapher für unsere Idee eher ein Rollenspiel, bei dem Alexa die Rolle des Spielleiters übernimmt und den Spielern die Welt beschreibt und die Möglichkeiten darlegt.
Das waren die grundsätzlichen Überlegungen und so fing unsere Reise an. Sie war abenteuerlich und führte uns an Orte, die wir bis dahin nicht kannten. Es gab ein paar Steine, die wir aus dem Weg räumen mussten, aber letztlich – um es schon einmal vorwegzunehmen – sind wir am Ziel angekommen.
Von Entwicklern zu Geschichtenerzählern
Um in Erzählungen hineintauchen und den Handlungsverlauf steuern zu können, braucht es nicht nur eine packende Kombination aus Text, Sprache und Bild, sondern auch eine komplexe Spielstruktur. Figge schlug vor, Hauke Gerdes dafür ins Boot zu holen. Hauke ist ein Profi in Sachen Pen&Paper, konzipiert und moderiert unter anderem für Rocket Beans TV und schreibt richtig gute Geschichten. Er war von unserer Idee sofort begeistert.
Gemeinsam entwickelten wir eine interaktive Geschichte, bei der Spieler:innen sich Stück für Stück die Story erschließen und an bestimmten Stellen aufgefordert werden, zwischen Handlungsoptionen zu entscheiden. Das Prinzip nennt man “CYOA“ – das Akronym steht für Choose your own adventure und bezeichnet ein Spielprinzip, das Ende der 1970er Jahre in Form von Spielbüchern entstand.
So ein Spielbuch ist in nummerierte Abschnitte eingeteilt. Am Ende jedes Abschnitts sind Optionen aufgelistet, die auf andere nummerierte Abschnitte verweisen. Man entscheidet sich für eine Option und blättert zu der Stelle, an der der jeweilige Erzählstrang fortgeführt wird. Im Prinzip muss man sich die Handlung wie eine verästelte Baumstruktur vorstellen.
Ähnlich ist das auch bei uns, nur halt nicht auf Papier, sondern mit Entscheidungsmöglichkeiten in einer App und begleitendem Audio aus einem Smart Speaker.
Think Ink: Scripten mit Open-Source-Code
Wir beschlossen, nicht nur mehrere Erzählpfade, sondern auch unterschiedliche Start- und Endpunkte in unsere Spielstruktur einzubinden, damit das Spielerlebnis noch individueller und dynamischer wird. Das verlangt einem an schriftstellerischen und Game-Design-Fähigkeiten einiges ab, aber Hauke hat das super hingekriegt. Zusätzlich haben wir eine zeitliche Dimension eingebaut. Das heißt: Abhängig davon, ob man sich zu einem früheren oder späteren Zeitpunkt für eine Option entscheidet, tritt ein anderes Ereignis ein. Daraus ergeben sich zahlreiche zusätzliche Kombinationen, was den Wiederspielwert steigert.
Auf der Suche nach einer Sprache, mit der wir die Struktur ordentlich scripten können, sind wir auf Ink gestoßen. Ink ist als Open Source verfügbar und wurde von der Firma Inkle speziell für solche Baumstrukturen (und ihre eigenen CYOA-Spiele wie das preisgekrönte 80 Days) entwickelt. Es war das perfekte Match und wir waren sofort verliebt! Das Script in Ink ist – mit kleineren Anpassungen – Herzstück unserer Technik und kann von Alexa Skills genutzt werden.
Ein Server als Converter
Problematisch war allerdings die technische Limitierung der Skills. Ein Beispiel: Amazon hat die Anzahl der abspielbaren MP3s auf fünf begrenzt. Ungünstig für Games, die zu einem großen Teil auf Audio basieren und wo schnell mal um die 500 MP3s für eine Episode zusammenkommen! Also haben wir einen Server, den wir zärtlich als Voice Machine bezeichnen, gebaut. Die Voice Machine verarbeitet Requests des Alexa Skills. Sollen beispielsweise 15 MP3s gespielt werden, konvertiert sie diese in 5 gleiche Teile bzw. Kombinationen. Die MP3s erhalten dabei automatisch Mono-Qualität, was insofern ein praktischer Nebeneffekt ist, als Stereo-Sound mit einem einzigen Smart Speaker ohnehin nicht möglich wäre.
Das Konvertieren geschieht on-the-fly, das heißt, es wird nichts im permanenten Datenspeicher gespeichert. Stattdessen wird ein Hashwert generiert, der jede Kombination eindeutig codiert und als Cache Key verwendbar ist. Dadurch kann die Voice Machine im Fall bekannter Kombinationen auf lokale Versionen im Cache zurückgreifen und muss nur die Requests verarbeiten, die neu sind. Da der Hashwert aus dem http-Request berechnet wird, haben wir Amazon CloudFront als Content Delivery Network davor gesetzt und die Query-Parameter in die Cache Policy eingebunden. So landet zum Schluss jede Kombination nur einmal bei der Voice Machine, was am Ende Zeit und Geld spart.
Wir machen das Netflix für Voice-Gaming
Als das Script stand, überlegten wir, auf welche Weise die Hörspiele verfügbar gemacht werden sollen. Die Frage ergab sich, weil das Browsen mit Smart Speakern schlecht funktioniert. Möchte man übers Web eine bestimmte Episode auswählen, rattert der Voice Assistant die ganze Liste herunter, was sich in die Länge ziehen kann. Das führte uns dazu, dass wir nicht nur die Engine, sondern auch die Content Discovery konzipierten.
Wir entwickelten eine App, die ähnlich wie die Netflix-Plattform aufgebaut ist. Darüber können Episoden ausgewählt und wahlweise an den Smart Speaker geschickt oder auf dem Smartphone gespielt werden. Die App war innerhalb von einem halben Jahr fertig gebaut. Als Entwicklungsumgebung nutzen wir Unity, für das Ink praktischerweise ein Plug-In bereitstellte. Ich sagte ja: perfektes Match!
Danach ging es ans Content Publishing, also Geschichten schreiben, vertonen und releasen. Zum Vertonen haben wir uns viele talentierte Sprecher:innen an Bord geholt, darunter Stimmen wie die von Ingo Meß, den man von Game One und Rocket Beans TV kennt. All das war neu, aufregend und unglaublich bereichernd für uns.
Bereit, wenn der Markt es ist
Campfire ist ein Experiment, das uns erstaunlich viel positives Feedback eingebracht hat. Wir haben es auf Platz 20 der iOS-Charts geschafft, ohne bezahlte Werbung zu schalten. Sogar Investoren interessierten sich für uns. Es gab viele technische Herausforderungen, an denen wir gewachsen sind. Wir haben uns nicht nur eingehend mit den Skills von Alexa, sondern auch mit unseren eigenen beschäftigt und sind uns unserer Stärken bewusst geworden. Gerade weil es sich bei interaktiven Hörbüchern nicht um klassische Mobile Games handelt, hat uns die Entwicklung großen Spaß gemacht. Unsere Technik funktioniert und hat bereits Anwendung gefunden. Wir sehen großes Potenzial für die Zukunft und sind bereit, wenn der Markt es ist.