BindWeave : Génération de vidéos cohérentes par sujet via une intégration intermodale
BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration
October 1, 2025
papers.authors: Zhaoyang Li, Dongjun Qian, Kai Su, Qishuai Diao, Xiangyang Xia, Chang Liu, Wenfei Yang, Tianzhu Zhang, Zehuan Yuan
cs.AI
papers.abstract
Le Transformer de Diffusion a démontré des capacités remarquables dans la génération de vidéos haute fidélité, produisant des images visuellement cohérentes et riches en détails sur de longues durées. Cependant, les modèles existants de génération vidéo peinent encore à assurer une cohérence des sujets, en raison d'une difficulté inhérente à interpréter les prompts spécifiant des relations spatiales complexes, une logique temporelle et des interactions entre plusieurs sujets. Pour résoudre ce problème, nous proposons BindWeave, un cadre unifié qui traite un large éventail de scénarios allant de cas à sujet unique à des scènes complexes impliquant plusieurs sujets et entités hétérogènes. Pour lier la sémantique complexe des prompts à des sujets visuels concrets, nous introduisons un cadre MLLM-DiT dans lequel un modèle de langage multimodal pré-entraîné effectue un raisonnement intermodal approfondi pour ancrer les entités et démêler les rôles, attributs et interactions, produisant ainsi des états cachés conscients des sujets qui conditionnent le transformer de diffusion pour une génération vidéo haute fidélité et cohérente en termes de sujets. Les expériences sur le benchmark OpenS2V montrent que notre méthode obtient des performances supérieures en matière de cohérence des sujets, de naturel et de pertinence textuelle dans les vidéos générées, surpassant les modèles open-source et commerciaux existants.
English
Diffusion Transformer has shown remarkable abilities in generating
high-fidelity videos, delivering visually coherent frames and rich details over
extended durations. However, existing video generation models still fall short
in subject-consistent video generation due to an inherent difficulty in parsing
prompts that specify complex spatial relationships, temporal logic, and
interactions among multiple subjects. To address this issue, we propose
BindWeave, a unified framework that handles a broad range of subject-to-video
scenarios from single-subject cases to complex multi-subject scenes with
heterogeneous entities. To bind complex prompt semantics to concrete visual
subjects, we introduce an MLLM-DiT framework in which a pretrained multimodal
large language model performs deep cross-modal reasoning to ground entities and
disentangle roles, attributes, and interactions, yielding subject-aware hidden
states that condition the diffusion transformer for high-fidelity
subject-consistent video generation. Experiments on the OpenS2V benchmark
demonstrate that our method achieves superior performance across subject
consistency, naturalness, and text relevance in generated videos, outperforming
existing open-source and commercial models.