ChatPaper.aiChatPaper

MagicComp: 컴포지셔널 비디오 생성을 위한 학습 없는 이중 단계 정제

MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation

March 18, 2025
저자: Hongyu Zhang, Yufan Deng, Shenghai Yuan, Peng Jin, Zesen Cheng, Yian Zhao, Chang Liu, Jie Chen
cs.AI

초록

텍스트-투-비디오(T2V) 생성은 확산 모델을 통해 상당한 진전을 이루었습니다. 그러나 기존 방법들은 여전히 속성의 정확한 바인딩, 공간 관계 결정, 그리고 다중 주체 간의 복잡한 동작 상호작용 포착에 어려움을 겪고 있습니다. 이러한 한계를 해결하기 위해, 우리는 이중 단계 정제를 통해 구성적 T2V 생성을 향상시키는 학습이 필요 없는 방법인 MagicComp를 제안합니다. 구체적으로, (1) 조건화 단계: 우리는 의미적 앵커의 방향 벡터를 원본 텍스트 임베딩에 점진적으로 주입함으로써 주체별 의미를 강화하고 주체 간 모호성을 해결하는 의미적 앵커 명확화를 도입합니다. (2) 노이즈 제거 단계: 우리는 그라운딩 사전 지식과 모델 적응형 공간 인식을 통합하여 마스크된 주의 변조를 통해 주체를 시공간 영역에 유연하게 바인딩하는 동적 레이아웃 융합 주의를 제안합니다. 또한, MagicComp는 모델에 구애받지 않고 다용도로 사용 가능한 접근법으로, 기존 T2V 아키텍처에 원활하게 통합될 수 있습니다. T2V-CompBench와 VBench에서의 광범위한 실험을 통해 MagicComp가 최신 방법들을 능가하며, 복잡한 프롬프트 기반 및 궤적 제어 가능한 비디오 생성과 같은 응용 분야에서의 잠재력을 입증했습니다. 프로젝트 페이지: https://hong-yu-zhang.github.io/MagicComp-Page/.
English
Text-to-video (T2V) generation has made significant strides with diffusion models. However, existing methods still struggle with accurately binding attributes, determining spatial relationships, and capturing complex action interactions between multiple subjects. To address these limitations, we propose MagicComp, a training-free method that enhances compositional T2V generation through dual-phase refinement. Specifically, (1) During the Conditioning Stage: We introduce the Semantic Anchor Disambiguation to reinforces subject-specific semantics and resolve inter-subject ambiguity by progressively injecting the directional vectors of semantic anchors into original text embedding; (2) During the Denoising Stage: We propose Dynamic Layout Fusion Attention, which integrates grounding priors and model-adaptive spatial perception to flexibly bind subjects to their spatiotemporal regions through masked attention modulation. Furthermore, MagicComp is a model-agnostic and versatile approach, which can be seamlessly integrated into existing T2V architectures. Extensive experiments on T2V-CompBench and VBench demonstrate that MagicComp outperforms state-of-the-art methods, highlighting its potential for applications such as complex prompt-based and trajectory-controllable video generation. Project page: https://hong-yu-zhang.github.io/MagicComp-Page/.

Summary

AI-Generated Summary

PDF82March 25, 2025