BindWeave: Generazione di Video Coerenti con il Soggetto tramite Integrazione Cross-Modale
BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration
October 1, 2025
Autori: Zhaoyang Li, Dongjun Qian, Kai Su, Qishuai Diao, Xiangyang Xia, Chang Liu, Wenfei Yang, Tianzhu Zhang, Zehuan Yuan
cs.AI
Abstract
Il Diffusion Transformer ha dimostrato capacità straordinarie nella generazione di video ad alta fedeltà, producendo fotogrammi visivamente coerenti e ricchi di dettagli per durate prolungate. Tuttavia, i modelli esistenti per la generazione di video presentano ancora limitazioni nella generazione di video con soggetti consistenti, a causa di una difficoltà intrinseca nell'interpretazione di prompt che specificano relazioni spaziali complesse, logica temporale e interazioni tra più soggetti. Per affrontare questo problema, proponiamo BindWeave, un framework unificato che gestisce un'ampia gamma di scenari da soggetto singolo a scene multi-soggetto complesse con entità eterogenee. Per associare la semantica complessa dei prompt a soggetti visivi concreti, introduciamo un framework MLLM-DiT in cui un modello linguistico multimodale pre-addestrato esegue un ragionamento cross-modale approfondito per ancorare le entità e districare ruoli, attributi e interazioni, producendo stati nascosti consapevoli del soggetto che condizionano il diffusion transformer per la generazione di video ad alta fedeltà con soggetti consistenti. Gli esperimenti sul benchmark OpenS2V dimostrano che il nostro metodo raggiunge prestazioni superiori in termini di consistenza del soggetto, naturalezza e rilevanza testuale nei video generati, superando i modelli open-source e commerciali esistenti.
English
Diffusion Transformer has shown remarkable abilities in generating
high-fidelity videos, delivering visually coherent frames and rich details over
extended durations. However, existing video generation models still fall short
in subject-consistent video generation due to an inherent difficulty in parsing
prompts that specify complex spatial relationships, temporal logic, and
interactions among multiple subjects. To address this issue, we propose
BindWeave, a unified framework that handles a broad range of subject-to-video
scenarios from single-subject cases to complex multi-subject scenes with
heterogeneous entities. To bind complex prompt semantics to concrete visual
subjects, we introduce an MLLM-DiT framework in which a pretrained multimodal
large language model performs deep cross-modal reasoning to ground entities and
disentangle roles, attributes, and interactions, yielding subject-aware hidden
states that condition the diffusion transformer for high-fidelity
subject-consistent video generation. Experiments on the OpenS2V benchmark
demonstrate that our method achieves superior performance across subject
consistency, naturalness, and text relevance in generated videos, outperforming
existing open-source and commercial models.