MagicComp: Refinamiento en Dos Fases sin Entrenamiento para la Generación de Videos Compositivos
MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation
March 18, 2025
Autores: Hongyu Zhang, Yufan Deng, Shenghai Yuan, Peng Jin, Zesen Cheng, Yian Zhao, Chang Liu, Jie Chen
cs.AI
Resumen
La generación de texto a video (T2V) ha logrado avances significativos con los modelos de difusión. Sin embargo, los métodos existentes aún enfrentan dificultades para vincular atributos con precisión, determinar relaciones espaciales y capturar interacciones complejas de acciones entre múltiples sujetos. Para abordar estas limitaciones, proponemos MagicComp, un método sin entrenamiento que mejora la generación composicional de T2V mediante un refinamiento en dos fases. Específicamente, (1) Durante la Etapa de Condicionamiento: Introducimos la Desambiguación de Anclas Semánticas, que refuerza la semántica específica de los sujetos y resuelve la ambigüedad entre sujetos al inyectar progresivamente los vectores direccionales de las anclas semánticas en la incrustación de texto original; (2) Durante la Etapa de Desruido: Proponemos la Atención de Fusión de Diseño Dinámico, que integra conocimientos previos de localización y percepción espacial adaptativa del modelo para vincular de manera flexible los sujetos a sus regiones espacio-temporales mediante la modulación de atención enmascarada. Además, MagicComp es un enfoque versátil y agnóstico al modelo, que puede integrarse sin problemas en las arquitecturas T2V existentes. Experimentos extensos en T2V-CompBench y VBench demuestran que MagicComp supera a los métodos más avanzados, destacando su potencial para aplicaciones como la generación de videos basados en indicaciones complejas y controlables mediante trayectorias. Página del proyecto: https://hong-yu-zhang.github.io/MagicComp-Page/.
English
Text-to-video (T2V) generation has made significant strides with diffusion
models. However, existing methods still struggle with accurately binding
attributes, determining spatial relationships, and capturing complex action
interactions between multiple subjects. To address these limitations, we
propose MagicComp, a training-free method that enhances compositional T2V
generation through dual-phase refinement. Specifically, (1) During the
Conditioning Stage: We introduce the Semantic Anchor Disambiguation to
reinforces subject-specific semantics and resolve inter-subject ambiguity by
progressively injecting the directional vectors of semantic anchors into
original text embedding; (2) During the Denoising Stage: We propose Dynamic
Layout Fusion Attention, which integrates grounding priors and model-adaptive
spatial perception to flexibly bind subjects to their spatiotemporal regions
through masked attention modulation. Furthermore, MagicComp is a model-agnostic
and versatile approach, which can be seamlessly integrated into existing T2V
architectures. Extensive experiments on T2V-CompBench and VBench demonstrate
that MagicComp outperforms state-of-the-art methods, highlighting its potential
for applications such as complex prompt-based and trajectory-controllable video
generation. Project page: https://hong-yu-zhang.github.io/MagicComp-Page/.Summary
AI-Generated Summary