BindWeave: Generación de Vídeo Consistente con el Tema mediante Integración Cross-Modal

Resumen

El Diffusion Transformer ha demostrado capacidades notables en la generación de videos de alta fidelidad, produciendo fotogramas visualmente coherentes y ricos en detalles durante períodos prolongados. Sin embargo, los modelos existentes de generación de videos aún no alcanzan un nivel óptimo en la generación de videos con consistencia temática, debido a una dificultad inherente en la interpretación de indicaciones que especifican relaciones espaciales complejas, lógica temporal e interacciones entre múltiples sujetos. Para abordar este problema, proponemos BindWeave, un marco unificado que maneja una amplia gama de escenarios de sujeto a video, desde casos de un solo sujeto hasta escenas complejas con múltiples sujetos y entidades heterogéneas. Para vincular la semántica compleja de las indicaciones con sujetos visuales concretos, introducimos un marco MLLM-DiT en el que un modelo de lenguaje multimodal preentrenado realiza un razonamiento cruzado profundo para fundamentar entidades y desentrañar roles, atributos e interacciones, generando estados ocultos conscientes del sujeto que condicionan el diffusion transformer para la generación de videos de alta fidelidad y consistencia temática. Los experimentos en el benchmark OpenS2V demuestran que nuestro método logra un rendimiento superior en consistencia temática, naturalidad y relevancia textual en los videos generados, superando a los modelos de código abierto y comerciales existentes.

English

Diffusion Transformer has shown remarkable abilities in generating high-fidelity videos, delivering visually coherent frames and rich details over extended durations. However, existing video generation models still fall short in subject-consistent video generation due to an inherent difficulty in parsing prompts that specify complex spatial relationships, temporal logic, and interactions among multiple subjects. To address this issue, we propose BindWeave, a unified framework that handles a broad range of subject-to-video scenarios from single-subject cases to complex multi-subject scenes with heterogeneous entities. To bind complex prompt semantics to concrete visual subjects, we introduce an MLLM-DiT framework in which a pretrained multimodal large language model performs deep cross-modal reasoning to ground entities and disentangle roles, attributes, and interactions, yielding subject-aware hidden states that condition the diffusion transformer for high-fidelity subject-consistent video generation. Experiments on the OpenS2V benchmark demonstrate that our method achieves superior performance across subject consistency, naturalness, and text relevance in generated videos, outperforming existing open-source and commercial models.

BindWeave: Generación de Vídeo Consistente con el Tema mediante Integración Cross-Modal

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

Resumen

Support