MagicComp: Trainingsvrije Dual-Fase Verfijning voor Compositionele Videogeneratie
MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation
March 18, 2025
Auteurs: Hongyu Zhang, Yufan Deng, Shenghai Yuan, Peng Jin, Zesen Cheng, Yian Zhao, Chang Liu, Jie Chen
cs.AI
Samenvatting
Text-to-video (T2V)-generatie heeft aanzienlijke vooruitgang geboekt met diffusiemodellen. Bestaande methoden hebben echter nog steeds moeite met het nauwkeurig koppelen van attributen, het bepalen van ruimtelijke relaties en het vastleggen van complexe actie-interacties tussen meerdere onderwerpen. Om deze beperkingen aan te pakken, stellen we MagicComp voor, een trainingsvrije methode die compositorische T2V-generatie verbetert via tweefasige verfijning. Specifiek: (1) Tijdens de Conditioneringsfase: We introduceren Semantic Anchor Disambiguation om subjectspecifieke semantiek te versterken en ambiguïteit tussen onderwerpen op te lossen door geleidelijk directionele vectoren van semantische ankers in de originele tekstembedding te injecteren; (2) Tijdens de Denoising-fase: We stellen Dynamic Layout Fusion Attention voor, dat grondingsprioriteiten en modeladaptieve ruimtelijke perceptie integreert om onderwerpen flexibel aan hun spatiotemporele regio’s te binden via gemaskeerde aandachtmodulatie. Bovendien is MagicComp een model-agnostische en veelzijdige aanpak, die naadloos kan worden geïntegreerd in bestaande T2V-architecturen. Uitgebreide experimenten op T2V-CompBench en VBench tonen aan dat MagicComp state-of-the-art methoden overtreft, wat het potentieel ervan benadrukt voor toepassingen zoals complexe prompt-gebaseerde en traject-controleerbare videogeneratie. Projectpagina: https://hong-yu-zhang.github.io/MagicComp-Page/.
English
Text-to-video (T2V) generation has made significant strides with diffusion
models. However, existing methods still struggle with accurately binding
attributes, determining spatial relationships, and capturing complex action
interactions between multiple subjects. To address these limitations, we
propose MagicComp, a training-free method that enhances compositional T2V
generation through dual-phase refinement. Specifically, (1) During the
Conditioning Stage: We introduce the Semantic Anchor Disambiguation to
reinforces subject-specific semantics and resolve inter-subject ambiguity by
progressively injecting the directional vectors of semantic anchors into
original text embedding; (2) During the Denoising Stage: We propose Dynamic
Layout Fusion Attention, which integrates grounding priors and model-adaptive
spatial perception to flexibly bind subjects to their spatiotemporal regions
through masked attention modulation. Furthermore, MagicComp is a model-agnostic
and versatile approach, which can be seamlessly integrated into existing T2V
architectures. Extensive experiments on T2V-CompBench and VBench demonstrate
that MagicComp outperforms state-of-the-art methods, highlighting its potential
for applications such as complex prompt-based and trajectory-controllable video
generation. Project page: https://hong-yu-zhang.github.io/MagicComp-Page/.Summary
AI-Generated Summary