Ajuste de Contexto Largo para la Generación de Videos
Long Context Tuning for Video Generation
March 13, 2025
Autores: Yuwei Guo, Ceyuan Yang, Ziyan Yang, Zhibei Ma, Zhijie Lin, Zhenheng Yang, Dahua Lin, Lu Jiang
cs.AI
Resumen
Los recientes avances en generación de video permiten producir videos realistas de un solo plano y un minuto de duración utilizando transformadores de difusión escalables. Sin embargo, los videos narrativos del mundo real requieren escenas de múltiples planos con consistencia visual y dinámica entre ellos. En este trabajo, presentamos Long Context Tuning (LCT), un paradigma de entrenamiento que amplía la ventana de contexto de modelos preentrenados de difusión de video de un solo plano para aprender la consistencia a nivel de escena directamente de los datos. Nuestro método extiende los mecanismos de atención completa desde planos individuales para abarcar todos los planos dentro de una escena, incorporando incrustaciones de posición 3D intercaladas y una estrategia de ruido asíncrona, permitiendo tanto la generación conjunta como autoregresiva de planos sin parámetros adicionales. Los modelos con atención bidireccional después de LCT pueden ajustarse aún más con atención causal-contextual, facilitando la generación autoregresiva con un caché KV eficiente. Los experimentos demuestran que los modelos de un solo plano después de LCT pueden producir escenas de múltiples planos coherentes y exhibir capacidades emergentes, incluyendo generación composicional y extensión interactiva de planos, allanando el camino para una creación de contenido visual más práctica. Consulte https://guoyww.github.io/projects/long-context-video/ para más detalles.
English
Recent advances in video generation can produce realistic, minute-long
single-shot videos with scalable diffusion transformers. However, real-world
narrative videos require multi-shot scenes with visual and dynamic consistency
across shots. In this work, we introduce Long Context Tuning (LCT), a training
paradigm that expands the context window of pre-trained single-shot video
diffusion models to learn scene-level consistency directly from data. Our
method expands full attention mechanisms from individual shots to encompass all
shots within a scene, incorporating interleaved 3D position embedding and an
asynchronous noise strategy, enabling both joint and auto-regressive shot
generation without additional parameters. Models with bidirectional attention
after LCT can further be fine-tuned with context-causal attention, facilitating
auto-regressive generation with efficient KV-cache. Experiments demonstrate
single-shot models after LCT can produce coherent multi-shot scenes and exhibit
emerging capabilities, including compositional generation and interactive shot
extension, paving the way for more practical visual content creation. See
https://guoyww.github.io/projects/long-context-video/ for more details.Summary
AI-Generated Summary