ChatPaper.aiChatPaper

BindWeave: Generazione di Video Coerenti con il Soggetto tramite Integrazione Cross-Modale

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

October 1, 2025
Autori: Zhaoyang Li, Dongjun Qian, Kai Su, Qishuai Diao, Xiangyang Xia, Chang Liu, Wenfei Yang, Tianzhu Zhang, Zehuan Yuan
cs.AI

Abstract

Il Diffusion Transformer ha dimostrato capacità straordinarie nella generazione di video ad alta fedeltà, producendo fotogrammi visivamente coerenti e ricchi di dettagli per durate prolungate. Tuttavia, i modelli esistenti per la generazione di video presentano ancora limitazioni nella generazione di video con soggetti consistenti, a causa di una difficoltà intrinseca nell'interpretazione di prompt che specificano relazioni spaziali complesse, logica temporale e interazioni tra più soggetti. Per affrontare questo problema, proponiamo BindWeave, un framework unificato che gestisce un'ampia gamma di scenari da soggetto singolo a scene multi-soggetto complesse con entità eterogenee. Per associare la semantica complessa dei prompt a soggetti visivi concreti, introduciamo un framework MLLM-DiT in cui un modello linguistico multimodale pre-addestrato esegue un ragionamento cross-modale approfondito per ancorare le entità e districare ruoli, attributi e interazioni, producendo stati nascosti consapevoli del soggetto che condizionano il diffusion transformer per la generazione di video ad alta fedeltà con soggetti consistenti. Gli esperimenti sul benchmark OpenS2V dimostrano che il nostro metodo raggiunge prestazioni superiori in termini di consistenza del soggetto, naturalezza e rilevanza testuale nei video generati, superando i modelli open-source e commerciali esistenti.
English
Diffusion Transformer has shown remarkable abilities in generating high-fidelity videos, delivering visually coherent frames and rich details over extended durations. However, existing video generation models still fall short in subject-consistent video generation due to an inherent difficulty in parsing prompts that specify complex spatial relationships, temporal logic, and interactions among multiple subjects. To address this issue, we propose BindWeave, a unified framework that handles a broad range of subject-to-video scenarios from single-subject cases to complex multi-subject scenes with heterogeneous entities. To bind complex prompt semantics to concrete visual subjects, we introduce an MLLM-DiT framework in which a pretrained multimodal large language model performs deep cross-modal reasoning to ground entities and disentangle roles, attributes, and interactions, yielding subject-aware hidden states that condition the diffusion transformer for high-fidelity subject-consistent video generation. Experiments on the OpenS2V benchmark demonstrate that our method achieves superior performance across subject consistency, naturalness, and text relevance in generated videos, outperforming existing open-source and commercial models.
PDF42October 2, 2025