ChatPaper.aiChatPaper

Ajuste de Contexto Longo para Geração de Vídeo

Long Context Tuning for Video Generation

March 13, 2025
Autores: Yuwei Guo, Ceyuan Yang, Ziyan Yang, Zhibei Ma, Zhijie Lin, Zhenheng Yang, Dahua Lin, Lu Jiang
cs.AI

Resumo

Os avanços recentes na geração de vídeos permitem a produção de vídeos realistas e de longa duração (minutos) em tomada única com transformadores de difusão escaláveis. No entanto, vídeos narrativos do mundo real exigem cenas com múltiplas tomadas, mantendo consistência visual e dinâmica entre elas. Neste trabalho, introduzimos o Long Context Tuning (LCT), um paradigma de treinamento que expande a janela de contexto de modelos pré-treinados de difusão de vídeo em tomada única para aprender consistência em nível de cena diretamente a partir dos dados. Nosso método estende mecanismos de atenção completa de tomadas individuais para abranger todas as tomadas dentro de uma cena, incorporando embeddings de posição 3D intercalados e uma estratégia de ruído assíncrona, permitindo tanto a geração conjunta quanto autoregressiva de tomadas sem parâmetros adicionais. Modelos com atenção bidirecional após o LCT podem ser ainda mais ajustados com atenção causal-contextual, facilitando a geração autoregressiva com cache KV eficiente. Experimentos demonstram que modelos de tomada única após o LCT podem produzir cenas com múltiplas tomadas coerentes e exibir capacidades emergentes, incluindo geração composicional e extensão interativa de tomadas, abrindo caminho para uma criação de conteúdo visual mais prática. Consulte https://guoyww.github.io/projects/long-context-video/ para mais detalhes.
English
Recent advances in video generation can produce realistic, minute-long single-shot videos with scalable diffusion transformers. However, real-world narrative videos require multi-shot scenes with visual and dynamic consistency across shots. In this work, we introduce Long Context Tuning (LCT), a training paradigm that expands the context window of pre-trained single-shot video diffusion models to learn scene-level consistency directly from data. Our method expands full attention mechanisms from individual shots to encompass all shots within a scene, incorporating interleaved 3D position embedding and an asynchronous noise strategy, enabling both joint and auto-regressive shot generation without additional parameters. Models with bidirectional attention after LCT can further be fine-tuned with context-causal attention, facilitating auto-regressive generation with efficient KV-cache. Experiments demonstrate single-shot models after LCT can produce coherent multi-shot scenes and exhibit emerging capabilities, including compositional generation and interactive shot extension, paving the way for more practical visual content creation. See https://guoyww.github.io/projects/long-context-video/ for more details.

Summary

AI-Generated Summary

PDF142March 14, 2025