SmartDirector: Keyframe-bedingte kinematografische Videogenerierung mit narrativer Temposteuerung

Zusammenfassung

Die Erzählqualität eines Videos bestimmt grundlegend seinen Wahrnehmungswert. Obwohl bestehende Videogenerierungsmethoden visuell ansprechende Inhalte erzeugen können, stützen sie sich überwiegend auf spärliche Steuerungssignale wie Textaufforderungen oder erste/letzte Bilder, was eine präzise Kontrolle über die Erzählstruktur und das zeitliche Tempo einschränkt. In diesem Papier schlagen wir SmartDirector vor, ein Rahmenwerk, das die Erzählfähigkeit von Videogenerierungsmodellen durch mehrere Schlüsselbilder verbessert. SmartDirector unterstützt flexible Generierungsszenarien, darunter Einzelaufnahmegenerierung, Mehrfachaufnahmen-Erzählsynthese und Videoverlängerung. Das Rahmenwerk arbeitet in zwei Phasen: Director-Gen erzeugt ein niedrigauflösendes Video, das von den bereitgestellten Schlüsselbildern gesteuert wird, und Director-SR verfeinert die Ausgabe, indem es hochauflösende Schlüsselbilder als semantische Anker nutzt, um feine Details wiederherzustellen. Um ein robustes Multi-Schlüsselbild-Training zu ermöglichen, bauen wir eine Datenpipeline auf, die Einzelaufnahme- und Mehrfachaufnahmesequenzen aus Filmen kuratiert. Umfangreiche Experimente zeigen, dass SmartDirector bestehende modernste Ansätze deutlich übertrifft. Wir werden den Code veröffentlichen, um weitere Forschung zu erleichtern.

English

The narrative quality of a video fundamentally determines its perceptual value. Although existing video generation methods can produce visually appealing content, they predominantly rely on sparse conditioning signals such as text prompts or first/last frames, which limits precise control over narrative structure and temporal pacing. In this paper, we propose SmartDirector, a framework that enhances the narrative capacity of video generation models through multiple keyframes. SmartDirector supports flexible generation scenarios including single-shot generation, multi-shot narrative synthesis, and video extension. The framework operates in two stages: Director-Gen generates a low-resolution video conditioned on the provided keyframes, and Director-SR refines the output by exploiting high-resolution keyframes as semantic anchors to recover fine-grained details. To enable robust multi-keyframe training, we construct a data pipeline that curates single-shot and multi-shot sequences from movies. Extensive experiments demonstrate that SmartDirector substantially outperforms existing state-of-the-art approaches. We will release the code to facilitate further research.