ChatPaper.aiChatPaper

BindWeave: Generación de Vídeo Consistente con el Tema mediante Integración Cross-Modal

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

October 1, 2025
Autores: Zhaoyang Li, Dongjun Qian, Kai Su, Qishuai Diao, Xiangyang Xia, Chang Liu, Wenfei Yang, Tianzhu Zhang, Zehuan Yuan
cs.AI

Resumen

El Diffusion Transformer ha demostrado capacidades notables en la generación de videos de alta fidelidad, produciendo fotogramas visualmente coherentes y ricos en detalles durante períodos prolongados. Sin embargo, los modelos existentes de generación de videos aún no alcanzan un nivel óptimo en la generación de videos con consistencia temática, debido a una dificultad inherente en la interpretación de indicaciones que especifican relaciones espaciales complejas, lógica temporal e interacciones entre múltiples sujetos. Para abordar este problema, proponemos BindWeave, un marco unificado que maneja una amplia gama de escenarios de sujeto a video, desde casos de un solo sujeto hasta escenas complejas con múltiples sujetos y entidades heterogéneas. Para vincular la semántica compleja de las indicaciones con sujetos visuales concretos, introducimos un marco MLLM-DiT en el que un modelo de lenguaje multimodal preentrenado realiza un razonamiento cruzado profundo para fundamentar entidades y desentrañar roles, atributos e interacciones, generando estados ocultos conscientes del sujeto que condicionan el diffusion transformer para la generación de videos de alta fidelidad y consistencia temática. Los experimentos en el benchmark OpenS2V demuestran que nuestro método logra un rendimiento superior en consistencia temática, naturalidad y relevancia textual en los videos generados, superando a los modelos de código abierto y comerciales existentes.
English
Diffusion Transformer has shown remarkable abilities in generating high-fidelity videos, delivering visually coherent frames and rich details over extended durations. However, existing video generation models still fall short in subject-consistent video generation due to an inherent difficulty in parsing prompts that specify complex spatial relationships, temporal logic, and interactions among multiple subjects. To address this issue, we propose BindWeave, a unified framework that handles a broad range of subject-to-video scenarios from single-subject cases to complex multi-subject scenes with heterogeneous entities. To bind complex prompt semantics to concrete visual subjects, we introduce an MLLM-DiT framework in which a pretrained multimodal large language model performs deep cross-modal reasoning to ground entities and disentangle roles, attributes, and interactions, yielding subject-aware hidden states that condition the diffusion transformer for high-fidelity subject-consistent video generation. Experiments on the OpenS2V benchmark demonstrate that our method achieves superior performance across subject consistency, naturalness, and text relevance in generated videos, outperforming existing open-source and commercial models.
PDF32October 2, 2025