Una Interfaz Nativa de Texto para la Creación de Vídeo Generativo
A Text-Native Interface for Generative Video Authoring
March 10, 2026
Autores: Xingyu Bruce Liu, Mira Dontcheva, Dingzeyu Li
cs.AI
Resumen
Todo el mundo puede escribir sus historias en formato de texto libre —es algo que todos aprendemos en la escuela. Sin embargo, contar historias mediante video requiere aprender herramientas especializadas y complejas. En este artículo, presentamos Doki, una interfaz nativa de texto para la creación de videos generativos, que alinea la producción audiovisual con el proceso natural de la escritura textual. En Doki, escribir texto es la interacción principal: dentro de un único documento, los usuarios definen recursos, estructuran escenas, crean tomas, refinan ediciones y añaden audio. Articulamos los principios de diseño de este enfoque centrado en el texto y demostramos las capacidades de Doki mediante una serie de ejemplos. Para evaluar su uso en contextos reales, realizamos un estudio de despliegue de una semana con participantes de diversos niveles de experiencia en creación audiovisual. Este trabajo contribuye con un cambio fundamental en las interfaces de video generativo, demostrando una forma nueva, poderosa y accesible de elaborar historias visuales.
English
Everyone can write their stories in freeform text format -- it's something we all learn in school. Yet storytelling via video requires one to learn specialized and complicated tools. In this paper, we introduce Doki, a text-native interface for generative video authoring, aligning video creation with the natural process of text writing. In Doki, writing text is the primary interaction: within a single document, users define assets, structure scenes, create shots, refine edits, and add audio. We articulate the design principles of this text-first approach and demonstrate Doki's capabilities through a series of examples. To evaluate its real-world use, we conducted a week-long deployment study with participants of varying expertise in video authoring. This work contributes a fundamental shift in generative video interfaces, demonstrating a powerful and accessible new way to craft visual stories.