Une interface native texte pour la création de vidéos génératives

Résumé

Tout le monde peut écrire ses histoires sous forme de texte libre – c'est une compétence que nous apprenons tous à l'école. Pourtant, la narration par la vidéo nécessite l'apprentissage d'outils spécialisés et complexes. Dans cet article, nous présentons Doki, une interface native texte pour la création générative de vidéos, alignant la production vidéo sur le processus naturel de l'écriture textuelle. Dans Doki, l'écriture de texte est l'interaction principale : au sein d'un seul document, les utilisateurs définissent les assets, structurent les scènes, créent les plans, affinent le montage et ajoutent l'audio. Nous articulons les principes de conception de cette approche axée sur le texte et démontrons les capacités de Doki à travers une série d'exemples. Pour évaluer son utilisation en conditions réelles, nous avons mené une étude de déploiement d'une semaine avec des participants aux compétences variées en création vidéo. Ce travail propose un changement fondamental dans les interfaces de vidéo générative, démontrant une nouvelle manière puissante et accessible de façonner des histoires visuelles.

English

Everyone can write their stories in freeform text format -- it's something we all learn in school. Yet storytelling via video requires one to learn specialized and complicated tools. In this paper, we introduce Doki, a text-native interface for generative video authoring, aligning video creation with the natural process of text writing. In Doki, writing text is the primary interaction: within a single document, users define assets, structure scenes, create shots, refine edits, and add audio. We articulate the design principles of this text-first approach and demonstrate Doki's capabilities through a series of examples. To evaluate its real-world use, we conducted a week-long deployment study with participants of varying expertise in video authoring. This work contributes a fundamental shift in generative video interfaces, demonstrating a powerful and accessible new way to craft visual stories.

Une interface native texte pour la création de vidéos génératives

A Text-Native Interface for Generative Video Authoring

Résumé

Support