BindWeave: Согласованная генерация видео с объектом через кросс-модальную интеграцию
BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration
October 1, 2025
Авторы: Zhaoyang Li, Dongjun Qian, Kai Su, Qishuai Diao, Xiangyang Xia, Chang Liu, Wenfei Yang, Tianzhu Zhang, Zehuan Yuan
cs.AI
Аннотация
Diffusion Transformer продемонстрировал впечатляющие способности в генерации высококачественных видео, обеспечивая визуально согласованные кадры и богатые детали на протяжении длительных временных интервалов. Однако существующие модели генерации видео по-прежнему не справляются с созданием видео с согласованными объектами из-за присущих трудностей в интерпретации запросов, которые задают сложные пространственные отношения, временную логику и взаимодействия между несколькими объектами. Для решения этой проблемы мы предлагаем BindWeave — унифицированную структуру, которая охватывает широкий спектр сценариев от случаев с одним объектом до сложных сцен с множеством разнородных сущностей. Для привязки сложной семантики запросов к конкретным визуальным объектам мы представляем MLLM-DiT — структуру, в которой предобученная мультимодальная большая языковая модель выполняет глубокое кросс-модальное рассуждение для закрепления сущностей и разделения ролей, атрибутов и взаимодействий, создавая скрытые состояния, учитывающие объекты, которые управляют диффузионным трансформером для генерации высококачественных видео с согласованными объектами. Эксперименты на бенчмарке OpenS2V показывают, что наш метод достигает превосходных результатов по согласованности объектов, естественности и релевантности текста в сгенерированных видео, превосходя существующие открытые и коммерческие модели.
English
Diffusion Transformer has shown remarkable abilities in generating
high-fidelity videos, delivering visually coherent frames and rich details over
extended durations. However, existing video generation models still fall short
in subject-consistent video generation due to an inherent difficulty in parsing
prompts that specify complex spatial relationships, temporal logic, and
interactions among multiple subjects. To address this issue, we propose
BindWeave, a unified framework that handles a broad range of subject-to-video
scenarios from single-subject cases to complex multi-subject scenes with
heterogeneous entities. To bind complex prompt semantics to concrete visual
subjects, we introduce an MLLM-DiT framework in which a pretrained multimodal
large language model performs deep cross-modal reasoning to ground entities and
disentangle roles, attributes, and interactions, yielding subject-aware hidden
states that condition the diffusion transformer for high-fidelity
subject-consistent video generation. Experiments on the OpenS2V benchmark
demonstrate that our method achieves superior performance across subject
consistency, naturalness, and text relevance in generated videos, outperforming
existing open-source and commercial models.