MagicComp: Trainingsvrije Dual-Fase Verfijning voor Compositionele Videogeneratie

Samenvatting

Text-to-video (T2V)-generatie heeft aanzienlijke vooruitgang geboekt met diffusiemodellen. Bestaande methoden hebben echter nog steeds moeite met het nauwkeurig koppelen van attributen, het bepalen van ruimtelijke relaties en het vastleggen van complexe actie-interacties tussen meerdere onderwerpen. Om deze beperkingen aan te pakken, stellen we MagicComp voor, een trainingsvrije methode die compositorische T2V-generatie verbetert via tweefasige verfijning. Specifiek: (1) Tijdens de Conditioneringsfase: We introduceren Semantic Anchor Disambiguation om subjectspecifieke semantiek te versterken en ambiguïteit tussen onderwerpen op te lossen door geleidelijk directionele vectoren van semantische ankers in de originele tekstembedding te injecteren; (2) Tijdens de Denoising-fase: We stellen Dynamic Layout Fusion Attention voor, dat grondingsprioriteiten en modeladaptieve ruimtelijke perceptie integreert om onderwerpen flexibel aan hun spatiotemporele regio’s te binden via gemaskeerde aandachtmodulatie. Bovendien is MagicComp een model-agnostische en veelzijdige aanpak, die naadloos kan worden geïntegreerd in bestaande T2V-architecturen. Uitgebreide experimenten op T2V-CompBench en VBench tonen aan dat MagicComp state-of-the-art methoden overtreft, wat het potentieel ervan benadrukt voor toepassingen zoals complexe prompt-gebaseerde en traject-controleerbare videogeneratie. Projectpagina: https://hong-yu-zhang.github.io/MagicComp-Page/.

English

Text-to-video (T2V) generation has made significant strides with diffusion models. However, existing methods still struggle with accurately binding attributes, determining spatial relationships, and capturing complex action interactions between multiple subjects. To address these limitations, we propose MagicComp, a training-free method that enhances compositional T2V generation through dual-phase refinement. Specifically, (1) During the Conditioning Stage: We introduce the Semantic Anchor Disambiguation to reinforces subject-specific semantics and resolve inter-subject ambiguity by progressively injecting the directional vectors of semantic anchors into original text embedding; (2) During the Denoising Stage: We propose Dynamic Layout Fusion Attention, which integrates grounding priors and model-adaptive spatial perception to flexibly bind subjects to their spatiotemporal regions through masked attention modulation. Furthermore, MagicComp is a model-agnostic and versatile approach, which can be seamlessly integrated into existing T2V architectures. Extensive experiments on T2V-CompBench and VBench demonstrate that MagicComp outperforms state-of-the-art methods, highlighting its potential for applications such as complex prompt-based and trajectory-controllable video generation. Project page: https://hong-yu-zhang.github.io/MagicComp-Page/.

MagicComp: Trainingsvrije Dual-Fase Verfijning voor Compositionele Videogeneratie

MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation

Samenvatting

Support