ChatPaper.aiChatPaper

BindWeave: Onderwerp-consistente videogeneratie via cross-modale integratie

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

October 1, 2025
Auteurs: Zhaoyang Li, Dongjun Qian, Kai Su, Qishuai Diao, Xiangyang Xia, Chang Liu, Wenfei Yang, Tianzhu Zhang, Zehuan Yuan
cs.AI

Samenvatting

De Diffusion Transformer heeft opmerkelijke vaardigheden getoond in het genereren van hoogwaardige video's, waarbij visueel samenhangende frames en rijke details over langere tijdsperioden worden geleverd. Bestaande videogeneratiemodellen schieten echter nog tekort in het genereren van onderwerp-consistente video's vanwege een inherente moeilijkheid in het interpreteren van prompts die complexe ruimtelijke relaties, temporele logica en interacties tussen meerdere onderwerpen specificeren. Om dit probleem aan te pakken, stellen we BindWeave voor, een uniform raamwerk dat een breed scala aan onderwerp-naar-video-scenario's afhandelt, van gevallen met één onderwerp tot complexe scènes met meerdere onderwerpen en heterogene entiteiten. Om complexe promptsemantiek te koppelen aan concrete visuele onderwerpen, introduceren we een MLLM-DiT-raamwerk waarin een vooraf getraind multimodaal groot taalmodel diepe cross-modale redenering uitvoert om entiteiten te verankeren en rollen, attributen en interacties te ontwarren, wat resulteert in onderwerp-bewuste verborgen toestanden die de diffusion transformer conditioneren voor hoogwaardige, onderwerp-consistente videogeneratie. Experimenten op de OpenS2V-benchmark tonen aan dat onze methode superieure prestaties bereikt op het gebied van onderwerpconsistentie, natuurlijkheid en tekstrelevantie in gegenereerde video's, en daarbij bestaande open-source en commerciële modellen overtreft.
English
Diffusion Transformer has shown remarkable abilities in generating high-fidelity videos, delivering visually coherent frames and rich details over extended durations. However, existing video generation models still fall short in subject-consistent video generation due to an inherent difficulty in parsing prompts that specify complex spatial relationships, temporal logic, and interactions among multiple subjects. To address this issue, we propose BindWeave, a unified framework that handles a broad range of subject-to-video scenarios from single-subject cases to complex multi-subject scenes with heterogeneous entities. To bind complex prompt semantics to concrete visual subjects, we introduce an MLLM-DiT framework in which a pretrained multimodal large language model performs deep cross-modal reasoning to ground entities and disentangle roles, attributes, and interactions, yielding subject-aware hidden states that condition the diffusion transformer for high-fidelity subject-consistent video generation. Experiments on the OpenS2V benchmark demonstrate that our method achieves superior performance across subject consistency, naturalness, and text relevance in generated videos, outperforming existing open-source and commercial models.
PDF42October 2, 2025