MagicComp: Refinamiento en Dos Fases sin Entrenamiento para la Generación de Videos Compositivos

Resumen

La generación de texto a video (T2V) ha logrado avances significativos con los modelos de difusión. Sin embargo, los métodos existentes aún enfrentan dificultades para vincular atributos con precisión, determinar relaciones espaciales y capturar interacciones complejas de acciones entre múltiples sujetos. Para abordar estas limitaciones, proponemos MagicComp, un método sin entrenamiento que mejora la generación composicional de T2V mediante un refinamiento en dos fases. Específicamente, (1) Durante la Etapa de Condicionamiento: Introducimos la Desambiguación de Anclas Semánticas, que refuerza la semántica específica de los sujetos y resuelve la ambigüedad entre sujetos al inyectar progresivamente los vectores direccionales de las anclas semánticas en la incrustación de texto original; (2) Durante la Etapa de Desruido: Proponemos la Atención de Fusión de Diseño Dinámico, que integra conocimientos previos de localización y percepción espacial adaptativa del modelo para vincular de manera flexible los sujetos a sus regiones espacio-temporales mediante la modulación de atención enmascarada. Además, MagicComp es un enfoque versátil y agnóstico al modelo, que puede integrarse sin problemas en las arquitecturas T2V existentes. Experimentos extensos en T2V-CompBench y VBench demuestran que MagicComp supera a los métodos más avanzados, destacando su potencial para aplicaciones como la generación de videos basados en indicaciones complejas y controlables mediante trayectorias. Página del proyecto: https://hong-yu-zhang.github.io/MagicComp-Page/.

English

Text-to-video (T2V) generation has made significant strides with diffusion models. However, existing methods still struggle with accurately binding attributes, determining spatial relationships, and capturing complex action interactions between multiple subjects. To address these limitations, we propose MagicComp, a training-free method that enhances compositional T2V generation through dual-phase refinement. Specifically, (1) During the Conditioning Stage: We introduce the Semantic Anchor Disambiguation to reinforces subject-specific semantics and resolve inter-subject ambiguity by progressively injecting the directional vectors of semantic anchors into original text embedding; (2) During the Denoising Stage: We propose Dynamic Layout Fusion Attention, which integrates grounding priors and model-adaptive spatial perception to flexibly bind subjects to their spatiotemporal regions through masked attention modulation. Furthermore, MagicComp is a model-agnostic and versatile approach, which can be seamlessly integrated into existing T2V architectures. Extensive experiments on T2V-CompBench and VBench demonstrate that MagicComp outperforms state-of-the-art methods, highlighting its potential for applications such as complex prompt-based and trajectory-controllable video generation. Project page: https://hong-yu-zhang.github.io/MagicComp-Page/.

MagicComp: Refinamiento en Dos Fases sin Entrenamiento para la Generación de Videos Compositivos

MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation

Resumen

Support