MagicComp: Refinamento em Duas Fases sem Treinamento para Geração de Vídeos Composicionais
MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation
March 18, 2025
Autores: Hongyu Zhang, Yufan Deng, Shenghai Yuan, Peng Jin, Zesen Cheng, Yian Zhao, Chang Liu, Jie Chen
cs.AI
Resumo
A geração de texto para vídeo (T2V) tem feito avanços significativos com modelos de difusão. No entanto, os métodos existentes ainda enfrentam dificuldades em vincular atributos com precisão, determinar relações espaciais e capturar interações complexas de ações entre múltiplos sujeitos. Para abordar essas limitações, propomos o MagicComp, um método sem treinamento que aprimora a geração composicional de T2V por meio de refinamento em duas fases. Especificamente, (1) Durante a Fase de Condicionamento: Introduzimos a Desambiguação de Âncoras Semânticas, que reforça a semântica específica do sujeito e resolve ambiguidades entre sujeitos ao injetar progressivamente vetores direcionais de âncoras semânticas no embedding de texto original; (2) Durante a Fase de Desruído: Propomos a Atenção de Fusão de Layout Dinâmico, que integra prioridades de ancoragem e percepção espacial adaptativa ao modelo para vincular flexivelmente os sujeitos às suas regiões espaço-temporais por meio de modulação de atenção mascarada. Além disso, o MagicComp é uma abordagem versátil e independente de modelo, podendo ser integrado de forma contínua em arquiteturas T2V existentes. Experimentos extensivos no T2V-CompBench e VBench demonstram que o MagicComp supera os métodos state-of-the-art, destacando seu potencial para aplicações como geração de vídeo baseada em prompts complexos e controlável por trajetórias. Página do projeto: https://hong-yu-zhang.github.io/MagicComp-Page/.
English
Text-to-video (T2V) generation has made significant strides with diffusion
models. However, existing methods still struggle with accurately binding
attributes, determining spatial relationships, and capturing complex action
interactions between multiple subjects. To address these limitations, we
propose MagicComp, a training-free method that enhances compositional T2V
generation through dual-phase refinement. Specifically, (1) During the
Conditioning Stage: We introduce the Semantic Anchor Disambiguation to
reinforces subject-specific semantics and resolve inter-subject ambiguity by
progressively injecting the directional vectors of semantic anchors into
original text embedding; (2) During the Denoising Stage: We propose Dynamic
Layout Fusion Attention, which integrates grounding priors and model-adaptive
spatial perception to flexibly bind subjects to their spatiotemporal regions
through masked attention modulation. Furthermore, MagicComp is a model-agnostic
and versatile approach, which can be seamlessly integrated into existing T2V
architectures. Extensive experiments on T2V-CompBench and VBench demonstrate
that MagicComp outperforms state-of-the-art methods, highlighting its potential
for applications such as complex prompt-based and trajectory-controllable video
generation. Project page: https://hong-yu-zhang.github.io/MagicComp-Page/.Summary
AI-Generated Summary