Optimisation de Contexte Long pour la Génération de Vidéos
Long Context Tuning for Video Generation
March 13, 2025
Auteurs: Yuwei Guo, Ceyuan Yang, Ziyan Yang, Zhibei Ma, Zhijie Lin, Zhenheng Yang, Dahua Lin, Lu Jiang
cs.AI
Résumé
Les récents progrès dans la génération de vidéos permettent de produire des séquences réalistes d'une minute en un seul plan grâce à des transformeurs de diffusion évolutifs. Cependant, les vidéos narratives du monde réel nécessitent des scènes multi-plans avec une cohérence visuelle et dynamique entre les plans. Dans ce travail, nous introduisons le Long Context Tuning (LCT), un paradigme d'entraînement qui étend la fenêtre contextuelle des modèles de diffusion vidéo pré-entraînés pour un seul plan afin d'apprendre directement la cohérence au niveau de la scène à partir des données. Notre méthode étend les mécanismes d'attention complète des plans individuels pour englober tous les plans d'une scène, en incorporant un encodage de position 3D entrelacé et une stratégie de bruit asynchrone, permettant à la fois une génération conjointe et auto-régressive des plans sans paramètres supplémentaires. Les modèles avec attention bidirectionnelle après LCT peuvent ensuite être affinés avec une attention contextuelle-causale, facilitant la génération auto-régressive avec un cache KV efficace. Les expériences montrent que les modèles mono-plan après LCT peuvent produire des scènes multi-plans cohérentes et présentent des capacités émergentes, notamment la génération compositionnelle et l'extension interactive des plans, ouvrant la voie à une création de contenu visuel plus pratique. Consultez https://guoyww.github.io/projects/long-context-video/ pour plus de détails.
English
Recent advances in video generation can produce realistic, minute-long
single-shot videos with scalable diffusion transformers. However, real-world
narrative videos require multi-shot scenes with visual and dynamic consistency
across shots. In this work, we introduce Long Context Tuning (LCT), a training
paradigm that expands the context window of pre-trained single-shot video
diffusion models to learn scene-level consistency directly from data. Our
method expands full attention mechanisms from individual shots to encompass all
shots within a scene, incorporating interleaved 3D position embedding and an
asynchronous noise strategy, enabling both joint and auto-regressive shot
generation without additional parameters. Models with bidirectional attention
after LCT can further be fine-tuned with context-causal attention, facilitating
auto-regressive generation with efficient KV-cache. Experiments demonstrate
single-shot models after LCT can produce coherent multi-shot scenes and exhibit
emerging capabilities, including compositional generation and interactive shot
extension, paving the way for more practical visual content creation. See
https://guoyww.github.io/projects/long-context-video/ for more details.Summary
AI-Generated Summary