Ajuste de Contexto Largo para la Generación de Videos

Resumen

Los recientes avances en generación de video permiten producir videos realistas de un solo plano y un minuto de duración utilizando transformadores de difusión escalables. Sin embargo, los videos narrativos del mundo real requieren escenas de múltiples planos con consistencia visual y dinámica entre ellos. En este trabajo, presentamos Long Context Tuning (LCT), un paradigma de entrenamiento que amplía la ventana de contexto de modelos preentrenados de difusión de video de un solo plano para aprender la consistencia a nivel de escena directamente de los datos. Nuestro método extiende los mecanismos de atención completa desde planos individuales para abarcar todos los planos dentro de una escena, incorporando incrustaciones de posición 3D intercaladas y una estrategia de ruido asíncrona, permitiendo tanto la generación conjunta como autoregresiva de planos sin parámetros adicionales. Los modelos con atención bidireccional después de LCT pueden ajustarse aún más con atención causal-contextual, facilitando la generación autoregresiva con un caché KV eficiente. Los experimentos demuestran que los modelos de un solo plano después de LCT pueden producir escenas de múltiples planos coherentes y exhibir capacidades emergentes, incluyendo generación composicional y extensión interactiva de planos, allanando el camino para una creación de contenido visual más práctica. Consulte https://guoyww.github.io/projects/long-context-video/ para más detalles.

English

Recent advances in video generation can produce realistic, minute-long single-shot videos with scalable diffusion transformers. However, real-world narrative videos require multi-shot scenes with visual and dynamic consistency across shots. In this work, we introduce Long Context Tuning (LCT), a training paradigm that expands the context window of pre-trained single-shot video diffusion models to learn scene-level consistency directly from data. Our method expands full attention mechanisms from individual shots to encompass all shots within a scene, incorporating interleaved 3D position embedding and an asynchronous noise strategy, enabling both joint and auto-regressive shot generation without additional parameters. Models with bidirectional attention after LCT can further be fine-tuned with context-causal attention, facilitating auto-regressive generation with efficient KV-cache. Experiments demonstrate single-shot models after LCT can produce coherent multi-shot scenes and exhibit emerging capabilities, including compositional generation and interactive shot extension, paving the way for more practical visual content creation. See https://guoyww.github.io/projects/long-context-video/ for more details.

Ajuste de Contexto Largo para la Generación de Videos

Long Context Tuning for Video Generation

Resumen

Support