SmartDirector: Keyframe-geconditioneerde cinematische videogeneratie met regeling van het narratief tempo
SmartDirector: Keyframe-Conditioned Cinematic Video Generation with Narrative Pacing Control
May 27, 2026
Auteurs: Zhida Zhang, Jie Ma, Zhan Peng, Haoxue Wu, Yang Han, Jun Liang, Jie Cao, Jing Li
cs.AI
Samenvatting
De narratieve kwaliteit van een video bepaalt fundamenteel de perceptuele waarde ervan. Hoewel bestaande videogeneratiemethoden visueel aantrekkelijke inhoud kunnen produceren, vertrouwen zij voornamelijk op schaarse conditioneringssignalen zoals tekstprompts of eerste/laatste frames, wat de precieze controle over narratieve structuur en temporele pacing beperkt. In dit artikel stellen we SmartDirector voor, een raamwerk dat de narratieve capaciteit van videogeneratiemodellen verbetert door middel van meerdere keyframes. SmartDirector ondersteunt flexibele generatiescenario's, waaronder single-shot generatie, multi-shot narratieve synthese en video-extensie. Het raamwerk werkt in twee fasen: Director-Gen genereert een lage-resolutievideo geconditioneerd op de verstrekte keyframes, en Director-SR verfijnt de uitvoer door hoge-resolutie keyframes als semantische ankers te gebruiken om fijnmazige details te herstellen. Om robuuste multi-keyframe training mogelijk te maken, bouwen we een datapijplijn die single-shot en multi-shot sequenties uit films cureert. Uitgebreide experimenten tonen aan dat SmartDirector aanzienlijk beter presteert dan bestaande state-of-the-art benaderingen. We zullen de code vrijgeven om verder onderzoek te faciliteren.
English
The narrative quality of a video fundamentally determines its perceptual value. Although existing video generation methods can produce visually appealing content, they predominantly rely on sparse conditioning signals such as text prompts or first/last frames, which limits precise control over narrative structure and temporal pacing. In this paper, we propose SmartDirector, a framework that enhances the narrative capacity of video generation models through multiple keyframes. SmartDirector supports flexible generation scenarios including single-shot generation, multi-shot narrative synthesis, and video extension. The framework operates in two stages: Director-Gen generates a low-resolution video conditioned on the provided keyframes, and Director-SR refines the output by exploiting high-resolution keyframes as semantic anchors to recover fine-grained details. To enable robust multi-keyframe training, we construct a data pipeline that curates single-shot and multi-shot sequences from movies. Extensive experiments demonstrate that SmartDirector substantially outperforms existing state-of-the-art approaches. We will release the code to facilitate further research.