Un'interfaccia nativa testuale per l'autorizzazione di video generativi

Abstract

Tutti possono scrivere le proprie storie in formato testo libero – è un'abilità che impariamo a scuola. Tuttavia, la narrazione tramite video richiede l'apprendimento di strumenti specializzati e complessi. In questo articolo presentiamo Doki, un'interfaccia nativa testuale per la creazione di video generativi, che allinea la produzione video con il processo naturale della scrittura testuale. In Doki, scrivere testo è l'interazione primaria: all'interno di un unico documento, gli utenti definiscono le risorse, strutturano le scene, creano le inquadrature, affinano il montaggio e aggiungono l'audio. Articoliamo i principi di progettazione di questo approccio text-first e dimostriamo le capacità di Doki attraverso una serie di esempi. Per valutarne l'utilizzo nel mondo reale, abbiamo condotto uno studio di deployment della durata di una settimana con partecipanti di diversa esperienza nella creazione video. Questo lavoro contribuisce con un cambiamento fondamentale nelle interfacce per video generativi, dimostrando un nuovo modo potente e accessibile di realizzare storie visive.

English

Everyone can write their stories in freeform text format -- it's something we all learn in school. Yet storytelling via video requires one to learn specialized and complicated tools. In this paper, we introduce Doki, a text-native interface for generative video authoring, aligning video creation with the natural process of text writing. In Doki, writing text is the primary interaction: within a single document, users define assets, structure scenes, create shots, refine edits, and add audio. We articulate the design principles of this text-first approach and demonstrate Doki's capabilities through a series of examples. To evaluate its real-world use, we conducted a week-long deployment study with participants of varying expertise in video authoring. This work contributes a fundamental shift in generative video interfaces, demonstrating a powerful and accessible new way to craft visual stories.

Un'interfaccia nativa testuale per l'autorizzazione di video generativi

A Text-Native Interface for Generative Video Authoring

Abstract

Support