BindWeave: Generación de Vídeo Consistente con el Tema mediante Integración Cross-Modal
BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration
October 1, 2025
Autores: Zhaoyang Li, Dongjun Qian, Kai Su, Qishuai Diao, Xiangyang Xia, Chang Liu, Wenfei Yang, Tianzhu Zhang, Zehuan Yuan
cs.AI
Resumen
El Diffusion Transformer ha demostrado capacidades notables en la generación de videos de alta fidelidad, produciendo fotogramas visualmente coherentes y ricos en detalles durante períodos prolongados. Sin embargo, los modelos existentes de generación de videos aún no alcanzan un nivel óptimo en la generación de videos con consistencia temática, debido a una dificultad inherente en la interpretación de indicaciones que especifican relaciones espaciales complejas, lógica temporal e interacciones entre múltiples sujetos. Para abordar este problema, proponemos BindWeave, un marco unificado que maneja una amplia gama de escenarios de sujeto a video, desde casos de un solo sujeto hasta escenas complejas con múltiples sujetos y entidades heterogéneas. Para vincular la semántica compleja de las indicaciones con sujetos visuales concretos, introducimos un marco MLLM-DiT en el que un modelo de lenguaje multimodal preentrenado realiza un razonamiento cruzado profundo para fundamentar entidades y desentrañar roles, atributos e interacciones, generando estados ocultos conscientes del sujeto que condicionan el diffusion transformer para la generación de videos de alta fidelidad y consistencia temática. Los experimentos en el benchmark OpenS2V demuestran que nuestro método logra un rendimiento superior en consistencia temática, naturalidad y relevancia textual en los videos generados, superando a los modelos de código abierto y comerciales existentes.
English
Diffusion Transformer has shown remarkable abilities in generating
high-fidelity videos, delivering visually coherent frames and rich details over
extended durations. However, existing video generation models still fall short
in subject-consistent video generation due to an inherent difficulty in parsing
prompts that specify complex spatial relationships, temporal logic, and
interactions among multiple subjects. To address this issue, we propose
BindWeave, a unified framework that handles a broad range of subject-to-video
scenarios from single-subject cases to complex multi-subject scenes with
heterogeneous entities. To bind complex prompt semantics to concrete visual
subjects, we introduce an MLLM-DiT framework in which a pretrained multimodal
large language model performs deep cross-modal reasoning to ground entities and
disentangle roles, attributes, and interactions, yielding subject-aware hidden
states that condition the diffusion transformer for high-fidelity
subject-consistent video generation. Experiments on the OpenS2V benchmark
demonstrate that our method achieves superior performance across subject
consistency, naturalness, and text relevance in generated videos, outperforming
existing open-source and commercial models.