BindWeave: クロスモーダル統合による主題一貫性のあるビデオ生成
BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration
October 1, 2025
著者: Zhaoyang Li, Dongjun Qian, Kai Su, Qishuai Diao, Xiangyang Xia, Chang Liu, Wenfei Yang, Tianzhu Zhang, Zehuan Yuan
cs.AI
要旨
Diffusion Transformerは、高精細な動画生成において顕著な能力を示し、長時間にわたって視覚的に一貫性のあるフレームと豊富なディテールを提供します。しかし、既存の動画生成モデルは、複雑な空間関係、時間的論理、および複数の被写体間の相互作用を指定するプロンプトを解析する際の本質的な難しさから、被写体の一貫性を保った動画生成においてまだ不十分です。この問題に対処するため、我々はBindWeaveを提案します。これは、単一被写体のケースから異種エンティティを含む複雑な多被写体シーンまで、幅広い被写体対動画シナリオを扱う統一フレームワークです。複雑なプロンプトの意味を具体的な視覚的対象に結び付けるために、我々はMLLM-DiTフレームワークを導入します。このフレームワークでは、事前学習されたマルチモーダル大規模言語モデルが深いクロスモーダル推論を行い、エンティティをグラウンディングし、役割、属性、および相互作用を解きほぐし、被写体を意識した隠れ状態を生成します。これにより、Diffusion Transformerが高精細で被写体の一貫性を保った動画生成を行うための条件付けが行われます。OpenS2Vベンチマークでの実験により、我々の手法が生成された動画の被写体一貫性、自然さ、およびテキスト関連性において優れた性能を発揮し、既存のオープンソースおよび商用モデルを凌駕することが実証されました。
English
Diffusion Transformer has shown remarkable abilities in generating
high-fidelity videos, delivering visually coherent frames and rich details over
extended durations. However, existing video generation models still fall short
in subject-consistent video generation due to an inherent difficulty in parsing
prompts that specify complex spatial relationships, temporal logic, and
interactions among multiple subjects. To address this issue, we propose
BindWeave, a unified framework that handles a broad range of subject-to-video
scenarios from single-subject cases to complex multi-subject scenes with
heterogeneous entities. To bind complex prompt semantics to concrete visual
subjects, we introduce an MLLM-DiT framework in which a pretrained multimodal
large language model performs deep cross-modal reasoning to ground entities and
disentangle roles, attributes, and interactions, yielding subject-aware hidden
states that condition the diffusion transformer for high-fidelity
subject-consistent video generation. Experiments on the OpenS2V benchmark
demonstrate that our method achieves superior performance across subject
consistency, naturalness, and text relevance in generated videos, outperforming
existing open-source and commercial models.