ChatPaper.aiChatPaper

BindWeave: Geração de Vídeos Consistentes com o Assunto por meio de Integração Cross-Modal

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

October 1, 2025
Autores: Zhaoyang Li, Dongjun Qian, Kai Su, Qishuai Diao, Xiangyang Xia, Chang Liu, Wenfei Yang, Tianzhu Zhang, Zehuan Yuan
cs.AI

Resumo

O Diffusion Transformer tem demonstrado habilidades notáveis na geração de vídeos de alta fidelidade, entregando quadros visualmente coerentes e detalhes ricos ao longo de durações estendidas. No entanto, os modelos existentes de geração de vídeos ainda apresentam deficiências na geração de vídeos com consistência de sujeito, devido a uma dificuldade inerente em interpretar prompts que especificam relações espaciais complexas, lógica temporal e interações entre múltiplos sujeitos. Para abordar essa questão, propomos o BindWeave, um framework unificado que lida com uma ampla gama de cenários de sujeito-para-vídeo, desde casos de um único sujeito até cenas complexas com múltiplos sujeitos e entidades heterogêneas. Para vincular a semântica complexa dos prompts a sujeitos visuais concretos, introduzimos um framework MLLM-DiT no qual um modelo de linguagem multimodal pré-treinado realiza raciocínio cruzado profundo para fundamentar entidades e desembaraçar papéis, atributos e interações, gerando estados ocultos conscientes do sujeito que condicionam o diffusion transformer para a geração de vídeos de alta fidelidade e consistência de sujeito. Experimentos no benchmark OpenS2V demonstram que nosso método alcança desempenho superior em consistência de sujeito, naturalidade e relevância textual nos vídeos gerados, superando modelos de código aberto e comerciais existentes.
English
Diffusion Transformer has shown remarkable abilities in generating high-fidelity videos, delivering visually coherent frames and rich details over extended durations. However, existing video generation models still fall short in subject-consistent video generation due to an inherent difficulty in parsing prompts that specify complex spatial relationships, temporal logic, and interactions among multiple subjects. To address this issue, we propose BindWeave, a unified framework that handles a broad range of subject-to-video scenarios from single-subject cases to complex multi-subject scenes with heterogeneous entities. To bind complex prompt semantics to concrete visual subjects, we introduce an MLLM-DiT framework in which a pretrained multimodal large language model performs deep cross-modal reasoning to ground entities and disentangle roles, attributes, and interactions, yielding subject-aware hidden states that condition the diffusion transformer for high-fidelity subject-consistent video generation. Experiments on the OpenS2V benchmark demonstrate that our method achieves superior performance across subject consistency, naturalness, and text relevance in generated videos, outperforming existing open-source and commercial models.
PDF42October 2, 2025