생성형 비디오 제작을 위한 텍스트 기반 인터페이스
A Text-Native Interface for Generative Video Authoring
March 10, 2026
저자: Xingyu Bruce Liu, Mira Dontcheva, Dingzeyu Li
cs.AI
초록
누구나 학교에서 배운 대로 자유 형식의 텍스트로 자신의 이야기를 쓸 수 있습니다. 그러나 비디오를 통한 스토리텔링은 전문적이고 복잡한 도구를 익혀야 합니다. 본 논문에서는 생성형 비디오 제작을 위한 텍스트 기반 인터페이스인 Doki를 소개하며, 비디오 제작을 텍스트 작성의 자연스러운 과정에 맞춥니다. Doki에서는 텍스트 작성이 주요 상호작용 방식으로, 단일 문서 내에서 사용자가 에셋을 정의하고, 장면을 구성하며, 샷을 생성하고, 편집을 다듬고, 오디오를 추가할 수 있습니다. 우리는 이러한 텍스트 우선 접근법의 설계 원칙을 명확히 제시하고 일련의 예시를 통해 Doki의 기능을 입증합니다. 실제 활용성을 평가하기 위해 비디오 제작 경험 수준이 다양한 참가자를 대상으로 1주일간의 현장 적용 연구를 수행했습니다. 이 연구는 생성형 비디오 인터페이스의 근본적인 전환을 제시하며, 강력하고 접근성이 뛰어난 새로운 시각적 스토리텔링 방식을 입증합니다.
English
Everyone can write their stories in freeform text format -- it's something we all learn in school. Yet storytelling via video requires one to learn specialized and complicated tools. In this paper, we introduce Doki, a text-native interface for generative video authoring, aligning video creation with the natural process of text writing. In Doki, writing text is the primary interaction: within a single document, users define assets, structure scenes, create shots, refine edits, and add audio. We articulate the design principles of this text-first approach and demonstrate Doki's capabilities through a series of examples. To evaluate its real-world use, we conducted a week-long deployment study with participants of varying expertise in video authoring. This work contributes a fundamental shift in generative video interfaces, demonstrating a powerful and accessible new way to craft visual stories.