Orientamento sem Treinamento na Geração de Texto para Vídeo via Planejamento Multimodal e Inicialização de Ruído Estruturado
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization
April 11, 2025
Autores: Jialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal
cs.AI
Resumo
Avanços recentes em modelos de difusão de texto para vídeo (T2V) têm melhorado significativamente a qualidade visual dos vídeos gerados. No entanto, mesmo os modelos T2V mais recentes enfrentam dificuldades em seguir descrições textuais com precisão, especialmente quando o prompt exige controle preciso de layouts espaciais ou trajetórias de objetos. Uma linha recente de pesquisa utiliza orientação de layout para modelos T2V que requerem ajuste fino ou manipulação iterativa do mapa de atenção durante o tempo de inferência. Isso aumenta significativamente a demanda de memória, tornando difícil adotar um modelo T2V grande como base. Para resolver isso, introduzimos o Video-MSG, um método de Orientação sem necessidade de treinamento para geração T2V, baseado em planejamento multimodal e inicialização estruturada de ruído. O Video-MSG consiste em três etapas, onde nas duas primeiras, o Video-MSG cria um Esboço de Vídeo, um plano espaço-temporal detalhado para o vídeo final, especificando fundo, primeiro plano e trajetórias de objetos, na forma de frames de vídeo preliminares. Na última etapa, o Video-MSG orienta um modelo de difusão T2V subsequente com o Esboço de Vídeo por meio de inversão de ruído e remoção de ruído. Notavelmente, o Video-MSG não precisa de ajuste fino ou manipulação de atenção com memória adicional durante o tempo de inferência, facilitando a adoção de modelos T2V grandes. O Video-MSG demonstra sua eficácia em melhorar o alinhamento textual com múltiplas bases T2V (VideoCrafter2 e CogVideoX-5B) em benchmarks populares de geração T2V (T2VCompBench e VBench). Fornecemos estudos abrangentes de ablação sobre a proporção de inversão de ruído, diferentes geradores de fundo, detecção de objetos no fundo e segmentação de objetos em primeiro plano.
English
Recent advancements in text-to-video (T2V) diffusion models have
significantly enhanced the visual quality of the generated videos. However,
even recent T2V models find it challenging to follow text descriptions
accurately, especially when the prompt requires accurate control of spatial
layouts or object trajectories. A recent line of research uses layout guidance
for T2V models that require fine-tuning or iterative manipulation of the
attention map during inference time. This significantly increases the memory
requirement, making it difficult to adopt a large T2V model as a backbone. To
address this, we introduce Video-MSG, a training-free Guidance method for T2V
generation based on Multimodal planning and Structured noise initialization.
Video-MSG consists of three steps, where in the first two steps, Video-MSG
creates Video Sketch, a fine-grained spatio-temporal plan for the final video,
specifying background, foreground, and object trajectories, in the form of
draft video frames. In the last step, Video-MSG guides a downstream T2V
diffusion model with Video Sketch through noise inversion and denoising.
Notably, Video-MSG does not need fine-tuning or attention manipulation with
additional memory during inference time, making it easier to adopt large T2V
models. Video-MSG demonstrates its effectiveness in enhancing text alignment
with multiple T2V backbones (VideoCrafter2 and CogVideoX-5B) on popular T2V
generation benchmarks (T2VCompBench and VBench). We provide comprehensive
ablation studies about noise inversion ratio, different background generators,
background object detection, and foreground object segmentation.Summary
AI-Generated Summary