Guidance de Cadrage : Guidage Sans Entraînement pour le Contrôle au Niveau des Cadres dans les Modèles de Diffusion Vidéo
Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models
June 8, 2025
Auteurs: Sangwon Jang, Taekyung Ki, Jaehyeong Jo, Jaehong Yoon, Soo Ye Kim, Zhe Lin, Sung Ju Hwang
cs.AI
Résumé
Les avancées dans les modèles de diffusion ont considérablement amélioré la qualité vidéo, attirant l'attention sur la contrôlabilité fine. Cependant, de nombreuses méthodes existantes dépendent du réglage fin de modèles vidéo à grande échelle pour des tâches spécifiques, ce qui devient de plus en plus impraticable à mesure que la taille des modèles continue de croître. Dans ce travail, nous présentons Frame Guidance, une méthode de guidage sans apprentissage pour la génération vidéo contrôlée basée sur des signaux au niveau des images, tels que des images clés, des images de référence de style, des esquisses ou des cartes de profondeur. Pour un guidage pratique sans apprentissage, nous proposons une méthode simple de traitement latent qui réduit considérablement l'utilisation de la mémoire, et appliquons une nouvelle stratégie d'optimisation latente conçue pour une génération vidéo globalement cohérente. Frame Guidance permet un contrôle efficace dans diverses tâches, y compris le guidage par images clés, la stylisation et la création de boucles, sans aucun apprentissage, et est compatible avec tout modèle vidéo. Les résultats expérimentaux montrent que Frame Guidance peut produire des vidéos contrôlées de haute qualité pour une large gamme de tâches et de signaux d'entrée.
English
Advancements in diffusion models have significantly improved video quality,
directing attention to fine-grained controllability. However, many existing
methods depend on fine-tuning large-scale video models for specific tasks,
which becomes increasingly impractical as model sizes continue to grow. In this
work, we present Frame Guidance, a training-free guidance for controllable
video generation based on frame-level signals, such as keyframes, style
reference images, sketches, or depth maps. For practical training-free
guidance, we propose a simple latent processing method that dramatically
reduces memory usage, and apply a novel latent optimization strategy designed
for globally coherent video generation. Frame Guidance enables effective
control across diverse tasks, including keyframe guidance, stylization, and
looping, without any training, compatible with any video models. Experimental
results show that Frame Guidance can produce high-quality controlled videos for
a wide range of tasks and input signals.