Eine textnative Benutzeroberfläche für generative Videoerstellung
A Text-Native Interface for Generative Video Authoring
March 10, 2026
Autoren: Xingyu Bruce Liu, Mira Dontcheva, Dingzeyu Li
cs.AI
Zusammenfassung
Jeder kann seine Geschichten im Freitextformat verfassen – das lernen wir alle in der Schule. Doch das Geschichtenerzählen per Video erfordert das Erlernen spezialisierter und komplexer Werkzeuge. In diesem Artikel stellen wir Doki vor, eine textbasierte Schnittstelle für generative Videoproduktion, die die Videocreation mit dem natürlichen Prozess des Textverfassens in Einklang bringt. Bei Doki ist das Schreiben von Text die primäre Interaktion: Innerhalb eines einzigen Dokuments definieren Nutzer Assets, strukturieren Szenen, erstellen Einstellungen, verfeinern Schnitte und fügen Audio hinzu. Wir legen die Designprinzipien dieses Text-zuerst-Ansatzes dar und demonstrieren die Möglichkeiten von Doki anhand einer Reihe von Beispielen. Um die praktische Anwendbarkeit zu bewerten, führten wir eine einwöchige Studie mit Teilnehmern unterschiedlicher Videoproduktionserfahrung durch. Diese Arbeit leistet einen grundlegenden Beitrag zur Weiterentwicklung generativer Videoschnittstellen, indem sie eine leistungsstarke und zugängliche neue Methode zur Gestaltung visueller Geschichten aufzeigt.
English
Everyone can write their stories in freeform text format -- it's something we all learn in school. Yet storytelling via video requires one to learn specialized and complicated tools. In this paper, we introduce Doki, a text-native interface for generative video authoring, aligning video creation with the natural process of text writing. In Doki, writing text is the primary interaction: within a single document, users define assets, structure scenes, create shots, refine edits, and add audio. We articulate the design principles of this text-first approach and demonstrate Doki's capabilities through a series of examples. To evaluate its real-world use, we conducted a week-long deployment study with participants of varying expertise in video authoring. This work contributes a fundamental shift in generative video interfaces, demonstrating a powerful and accessible new way to craft visual stories.