MagicComp : Raffinement en deux phases sans apprentissage pour la génération de vidéos compositionnelles
MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation
March 18, 2025
Auteurs: Hongyu Zhang, Yufan Deng, Shenghai Yuan, Peng Jin, Zesen Cheng, Yian Zhao, Chang Liu, Jie Chen
cs.AI
Résumé
La génération de texte à vidéo (T2V) a réalisé des progrès significatifs grâce aux modèles de diffusion. Cependant, les méthodes existantes peinent encore à associer précisément les attributs, à déterminer les relations spatiales et à capturer les interactions complexes entre plusieurs sujets. Pour surmonter ces limitations, nous proposons MagicComp, une méthode sans entraînement qui améliore la génération compositionnelle T2V grâce à un raffinement en deux phases. Plus précisément, (1) Durant l'Étape de Conditionnement : Nous introduisons la Désambiguïsation des Ancres Sémantiques pour renforcer la sémantique spécifique aux sujets et résoudre les ambiguïtés inter-sujets en injectant progressivement les vecteurs directionnels des ancres sémantiques dans l'embedding de texte original ; (2) Durant l'Étape de Dénuage : Nous proposons l'Attention de Fusion Dynamique de Disposition, qui intègre des préalables de localisation et une perception spatiale adaptative au modèle pour associer de manière flexible les sujets à leurs régions spatio-temporelles via une modulation d'attention masquée. De plus, MagicComp est une approche agnostique au modèle et polyvalente, pouvant être intégrée de manière transparente dans les architectures T2V existantes. Des expériences approfondies sur T2V-CompBench et VBench montrent que MagicComp surpasse les méthodes de pointe, soulignant son potentiel pour des applications telles que la génération de vidéos basées sur des prompts complexes et contrôlables par trajectoire. Page du projet : https://hong-yu-zhang.github.io/MagicComp-Page/.
English
Text-to-video (T2V) generation has made significant strides with diffusion
models. However, existing methods still struggle with accurately binding
attributes, determining spatial relationships, and capturing complex action
interactions between multiple subjects. To address these limitations, we
propose MagicComp, a training-free method that enhances compositional T2V
generation through dual-phase refinement. Specifically, (1) During the
Conditioning Stage: We introduce the Semantic Anchor Disambiguation to
reinforces subject-specific semantics and resolve inter-subject ambiguity by
progressively injecting the directional vectors of semantic anchors into
original text embedding; (2) During the Denoising Stage: We propose Dynamic
Layout Fusion Attention, which integrates grounding priors and model-adaptive
spatial perception to flexibly bind subjects to their spatiotemporal regions
through masked attention modulation. Furthermore, MagicComp is a model-agnostic
and versatile approach, which can be seamlessly integrated into existing T2V
architectures. Extensive experiments on T2V-CompBench and VBench demonstrate
that MagicComp outperforms state-of-the-art methods, highlighting its potential
for applications such as complex prompt-based and trajectory-controllable video
generation. Project page: https://hong-yu-zhang.github.io/MagicComp-Page/.Summary
AI-Generated Summary