MagicComp: Двухэтапное уточнение без обучения для композиционной генерации видео
MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation
March 18, 2025
Авторы: Hongyu Zhang, Yufan Deng, Shenghai Yuan, Peng Jin, Zesen Cheng, Yian Zhao, Chang Liu, Jie Chen
cs.AI
Аннотация
Генерация видео из текста (Text-to-Video, T2V) достигла значительных успехов благодаря моделям диффузии. Однако существующие методы по-прежнему сталкиваются с трудностями в точном связывании атрибутов, определении пространственных отношений и захвате сложных взаимодействий между несколькими объектами. Чтобы устранить эти ограничения, мы предлагаем MagicComp — метод, не требующий обучения, который улучшает композиционную генерацию T2V за счет двухэтапного уточнения. А именно: (1) На этапе кондиционирования мы вводим метод Semantic Anchor Disambiguation, который усиливает семантику, специфичную для объектов, и устраняет неоднозначность между объектами, постепенно внедряя направленные векторы семантических якорей в исходное текстовое представление; (2) На этапе денойзинга мы предлагаем Dynamic Layout Fusion Attention, который интегрирует априорные данные о расположении и адаптивное пространственное восприятие модели для гибкого связывания объектов с их пространственно-временными областями через модуляцию маскированного внимания. Кроме того, MagicComp является универсальным и независимым от модели подходом, который может быть легко интегрирован в существующие архитектуры T2V. Многочисленные эксперименты на T2V-CompBench и VBench демонстрируют, что MagicComp превосходит современные методы, подчеркивая его потенциал для таких приложений, как генерация видео на основе сложных запросов и с контролируемой траекторией. Страница проекта: https://hong-yu-zhang.github.io/MagicComp-Page/.
English
Text-to-video (T2V) generation has made significant strides with diffusion
models. However, existing methods still struggle with accurately binding
attributes, determining spatial relationships, and capturing complex action
interactions between multiple subjects. To address these limitations, we
propose MagicComp, a training-free method that enhances compositional T2V
generation through dual-phase refinement. Specifically, (1) During the
Conditioning Stage: We introduce the Semantic Anchor Disambiguation to
reinforces subject-specific semantics and resolve inter-subject ambiguity by
progressively injecting the directional vectors of semantic anchors into
original text embedding; (2) During the Denoising Stage: We propose Dynamic
Layout Fusion Attention, which integrates grounding priors and model-adaptive
spatial perception to flexibly bind subjects to their spatiotemporal regions
through masked attention modulation. Furthermore, MagicComp is a model-agnostic
and versatile approach, which can be seamlessly integrated into existing T2V
architectures. Extensive experiments on T2V-CompBench and VBench demonstrate
that MagicComp outperforms state-of-the-art methods, highlighting its potential
for applications such as complex prompt-based and trajectory-controllable video
generation. Project page: https://hong-yu-zhang.github.io/MagicComp-Page/.Summary
AI-Generated Summary