SmartDirector : Génération de vidéos cinématographiques conditionnée par des images clés avec contrôle du rythme narratif

Résumé

La qualité narrative d'une vidéo détermine fondamentalement sa valeur perceptuelle. Bien que les méthodes existantes de génération vidéo puissent produire un contenu visuellement attrayant, elles reposent principalement sur des signaux de conditionnement épars tels que des invites textuelles ou les première/dernière images, ce qui limite un contrôle précis sur la structure narrative et le rythme temporel. Dans cet article, nous proposons SmartDirector, un cadre qui améliore la capacité narrative des modèles de génération vidéo grâce à plusieurs images clés. SmartDirector prend en charge des scénarios de génération flexibles, notamment la génération en plan unique, la synthèse narrative multi-plans et l'extension vidéo. Le cadre fonctionne en deux étapes : Director-Gen génère une vidéo basse résolution conditionnée par les images clés fournies, et Director-SR affine la sortie en exploitant les images clés haute résolution comme ancres sémantiques pour récupérer les détails fins. Pour permettre un apprentissage robuste avec plusieurs images clés, nous construisons un pipeline de données qui sélectionne des séquences en plan unique et multi-plans à partir de films. Des expériences approfondies montrent que SmartDirector surpasse considérablement les approches de pointe existantes. Nous publierons le code pour faciliter les recherches futures.

English

The narrative quality of a video fundamentally determines its perceptual value. Although existing video generation methods can produce visually appealing content, they predominantly rely on sparse conditioning signals such as text prompts or first/last frames, which limits precise control over narrative structure and temporal pacing. In this paper, we propose SmartDirector, a framework that enhances the narrative capacity of video generation models through multiple keyframes. SmartDirector supports flexible generation scenarios including single-shot generation, multi-shot narrative synthesis, and video extension. The framework operates in two stages: Director-Gen generates a low-resolution video conditioned on the provided keyframes, and Director-SR refines the output by exploiting high-resolution keyframes as semantic anchors to recover fine-grained details. To enable robust multi-keyframe training, we construct a data pipeline that curates single-shot and multi-shot sequences from movies. Extensive experiments demonstrate that SmartDirector substantially outperforms existing state-of-the-art approaches. We will release the code to facilitate further research.