BindWeave: 크로스모달 통합을 통한 주제 일관성 비디오 생성
BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration
October 1, 2025
저자: Zhaoyang Li, Dongjun Qian, Kai Su, Qishuai Diao, Xiangyang Xia, Chang Liu, Wenfei Yang, Tianzhu Zhang, Zehuan Yuan
cs.AI
초록
Diffusion Transformer는 고해상도 비디오 생성에서 뛰어난 능력을 보여주며, 장시간에 걸쳐 시각적으로 일관된 프레임과 풍부한 디테일을 제공합니다. 그러나 기존의 비디오 생성 모델들은 복잡한 공간적 관계, 시간적 논리, 그리고 다중 주체 간의 상호작용을 명시하는 프롬프트를 파싱하는 데 있어 본질적인 어려움으로 인해 주체 일관성 있는 비디오 생성에는 여전히 한계가 있습니다. 이러한 문제를 해결하기 위해, 우리는 단일 주체 사례부터 이질적 개체를 포함한 복잡한 다중 주체 장면까지 광범위한 주체-비디오 시나리오를 처리하는 통합 프레임워크인 BindWeave를 제안합니다. 복잡한 프롬프트 의미를 구체적인 시각적 주체에 바인딩하기 위해, 우리는 사전 학습된 다중 모달 대형 언어 모델이 깊은 교차 모달 추론을 수행하여 개체를 기반으로 하고 역할, 속성, 상호작용을 분리함으로써 주체 인식 숨겨진 상태를 생성하는 MLLM-DiT 프레임워크를 도입했습니다. 이는 고해상도의 주체 일관성 있는 비디오 생성을 위해 Diffusion Transformer를 조건화합니다. OpenS2V 벤치마크에서의 실험 결과, 우리의 방법은 생성된 비디오의 주체 일관성, 자연스러움, 텍스트 관련성 측면에서 우수한 성능을 달성하며, 기존의 오픈소스 및 상용 모델들을 능가하는 것으로 나타났습니다.
English
Diffusion Transformer has shown remarkable abilities in generating
high-fidelity videos, delivering visually coherent frames and rich details over
extended durations. However, existing video generation models still fall short
in subject-consistent video generation due to an inherent difficulty in parsing
prompts that specify complex spatial relationships, temporal logic, and
interactions among multiple subjects. To address this issue, we propose
BindWeave, a unified framework that handles a broad range of subject-to-video
scenarios from single-subject cases to complex multi-subject scenes with
heterogeneous entities. To bind complex prompt semantics to concrete visual
subjects, we introduce an MLLM-DiT framework in which a pretrained multimodal
large language model performs deep cross-modal reasoning to ground entities and
disentangle roles, attributes, and interactions, yielding subject-aware hidden
states that condition the diffusion transformer for high-fidelity
subject-consistent video generation. Experiments on the OpenS2V benchmark
demonstrate that our method achieves superior performance across subject
consistency, naturalness, and text relevance in generated videos, outperforming
existing open-source and commercial models.