ChatPaper.aiChatPaper

Een Tekstgebaseerde Interface voor Generatief Videobewerken

A Text-Native Interface for Generative Video Authoring

March 10, 2026
Auteurs: Xingyu Bruce Liu, Mira Dontcheva, Dingzeyu Li
cs.AI

Samenvatting

Iedereen kan zijn verhalen schrijven in vrij tekstformaat – het is iets dat we allemaal op school leren. Toch vereist verhalen vertellen via video dat men gespecialiseerde en complexe tools leert gebruiken. In dit artikel introduceren we Doki, een tekstgebaseerde interface voor generatieve videoproductie, die videocreatie afstemt op het natuurlijke proces van tekstschrijven. In Doki is tekst schrijven de primaire interactie: binnen één enkel document definiëren gebruikers assets, structureren scènes, creëren shots, verfijnen bewerkingen en voegen audio toe. We verwoorden de ontwerpprincipes van deze tekst-eerst aanpak en demonstreren Doki's mogelijkheden aan de hand van een reeks voorbeelden. Om het praktische gebruik te evalueren, voerden we een weeklange implementatiestudie uit met deelnemers met uiteenlopende expertise in videoproductie. Dit werk vertegenwoordigt een fundamentele verschuiving in generatieve video-interfaces en toont een krachtige en toegankelijke nieuwe manier aan om visuele verhalen te creëren.
English
Everyone can write their stories in freeform text format -- it's something we all learn in school. Yet storytelling via video requires one to learn specialized and complicated tools. In this paper, we introduce Doki, a text-native interface for generative video authoring, aligning video creation with the natural process of text writing. In Doki, writing text is the primary interaction: within a single document, users define assets, structure scenes, create shots, refine edits, and add audio. We articulate the design principles of this text-first approach and demonstrate Doki's capabilities through a series of examples. To evaluate its real-world use, we conducted a week-long deployment study with participants of varying expertise in video authoring. This work contributes a fundamental shift in generative video interfaces, demonstrating a powerful and accessible new way to craft visual stories.
PDF01March 26, 2026