ChatPaper.aiChatPaper

Uma Interface Nativa de Texto para Autoria de Vídeo Generativo

A Text-Native Interface for Generative Video Authoring

March 10, 2026
Autores: Xingyu Bruce Liu, Mira Dontcheva, Dingzeyu Li
cs.AI

Resumo

Todos podem escrever suas histórias em formato de texto livre — é algo que todos aprendemos na escola. No entanto, a narrativa por meio de vídeo exige o aprendizado de ferramentas especializadas e complexas. Neste artigo, apresentamos o Doki, uma interface baseada em texto para autoria de vídeo generativo, alinhando a criação de vídeo com o processo natural da escrita textual. No Doki, escrever texto é a interação principal: dentro de um único documento, os usuários definem recursos, estruturam cenas, criam tomadas, refinam edições e adicionam áudio. Articulamos os princípios de design dessa abordagem orientada a texto e demonstramos as capacidades do Doki por meio de uma série de exemplos. Para avaliar seu uso no mundo real, realizamos um estudo de implantação de uma semana com participantes de diferentes níveis de experiência em autoria de vídeo. Este trabalho contribui com uma mudança fundamental nas interfaces de vídeo generativo, demonstrando uma nova forma poderosa e acessível de criar histórias visuais.
English
Everyone can write their stories in freeform text format -- it's something we all learn in school. Yet storytelling via video requires one to learn specialized and complicated tools. In this paper, we introduce Doki, a text-native interface for generative video authoring, aligning video creation with the natural process of text writing. In Doki, writing text is the primary interaction: within a single document, users define assets, structure scenes, create shots, refine edits, and add audio. We articulate the design principles of this text-first approach and demonstrate Doki's capabilities through a series of examples. To evaluate its real-world use, we conducted a week-long deployment study with participants of varying expertise in video authoring. This work contributes a fundamental shift in generative video interfaces, demonstrating a powerful and accessible new way to craft visual stories.
PDF01March 26, 2026