ChatPaper.aiChatPaper

BindWeave : Génération de vidéos cohérentes par sujet via une intégration intermodale

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

October 1, 2025
papers.authors: Zhaoyang Li, Dongjun Qian, Kai Su, Qishuai Diao, Xiangyang Xia, Chang Liu, Wenfei Yang, Tianzhu Zhang, Zehuan Yuan
cs.AI

papers.abstract

Le Transformer de Diffusion a démontré des capacités remarquables dans la génération de vidéos haute fidélité, produisant des images visuellement cohérentes et riches en détails sur de longues durées. Cependant, les modèles existants de génération vidéo peinent encore à assurer une cohérence des sujets, en raison d'une difficulté inhérente à interpréter les prompts spécifiant des relations spatiales complexes, une logique temporelle et des interactions entre plusieurs sujets. Pour résoudre ce problème, nous proposons BindWeave, un cadre unifié qui traite un large éventail de scénarios allant de cas à sujet unique à des scènes complexes impliquant plusieurs sujets et entités hétérogènes. Pour lier la sémantique complexe des prompts à des sujets visuels concrets, nous introduisons un cadre MLLM-DiT dans lequel un modèle de langage multimodal pré-entraîné effectue un raisonnement intermodal approfondi pour ancrer les entités et démêler les rôles, attributs et interactions, produisant ainsi des états cachés conscients des sujets qui conditionnent le transformer de diffusion pour une génération vidéo haute fidélité et cohérente en termes de sujets. Les expériences sur le benchmark OpenS2V montrent que notre méthode obtient des performances supérieures en matière de cohérence des sujets, de naturel et de pertinence textuelle dans les vidéos générées, surpassant les modèles open-source et commerciaux existants.
English
Diffusion Transformer has shown remarkable abilities in generating high-fidelity videos, delivering visually coherent frames and rich details over extended durations. However, existing video generation models still fall short in subject-consistent video generation due to an inherent difficulty in parsing prompts that specify complex spatial relationships, temporal logic, and interactions among multiple subjects. To address this issue, we propose BindWeave, a unified framework that handles a broad range of subject-to-video scenarios from single-subject cases to complex multi-subject scenes with heterogeneous entities. To bind complex prompt semantics to concrete visual subjects, we introduce an MLLM-DiT framework in which a pretrained multimodal large language model performs deep cross-modal reasoning to ground entities and disentangle roles, attributes, and interactions, yielding subject-aware hidden states that condition the diffusion transformer for high-fidelity subject-consistent video generation. Experiments on the OpenS2V benchmark demonstrate that our method achieves superior performance across subject consistency, naturalness, and text relevance in generated videos, outperforming existing open-source and commercial models.
PDF32October 2, 2025