ChatPaper.aiChatPaper

BindWeave: Согласованная генерация видео с объектом через кросс-модальную интеграцию

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

October 1, 2025
Авторы: Zhaoyang Li, Dongjun Qian, Kai Su, Qishuai Diao, Xiangyang Xia, Chang Liu, Wenfei Yang, Tianzhu Zhang, Zehuan Yuan
cs.AI

Аннотация

Diffusion Transformer продемонстрировал впечатляющие способности в генерации высококачественных видео, обеспечивая визуально согласованные кадры и богатые детали на протяжении длительных временных интервалов. Однако существующие модели генерации видео по-прежнему не справляются с созданием видео с согласованными объектами из-за присущих трудностей в интерпретации запросов, которые задают сложные пространственные отношения, временную логику и взаимодействия между несколькими объектами. Для решения этой проблемы мы предлагаем BindWeave — унифицированную структуру, которая охватывает широкий спектр сценариев от случаев с одним объектом до сложных сцен с множеством разнородных сущностей. Для привязки сложной семантики запросов к конкретным визуальным объектам мы представляем MLLM-DiT — структуру, в которой предобученная мультимодальная большая языковая модель выполняет глубокое кросс-модальное рассуждение для закрепления сущностей и разделения ролей, атрибутов и взаимодействий, создавая скрытые состояния, учитывающие объекты, которые управляют диффузионным трансформером для генерации высококачественных видео с согласованными объектами. Эксперименты на бенчмарке OpenS2V показывают, что наш метод достигает превосходных результатов по согласованности объектов, естественности и релевантности текста в сгенерированных видео, превосходя существующие открытые и коммерческие модели.
English
Diffusion Transformer has shown remarkable abilities in generating high-fidelity videos, delivering visually coherent frames and rich details over extended durations. However, existing video generation models still fall short in subject-consistent video generation due to an inherent difficulty in parsing prompts that specify complex spatial relationships, temporal logic, and interactions among multiple subjects. To address this issue, we propose BindWeave, a unified framework that handles a broad range of subject-to-video scenarios from single-subject cases to complex multi-subject scenes with heterogeneous entities. To bind complex prompt semantics to concrete visual subjects, we introduce an MLLM-DiT framework in which a pretrained multimodal large language model performs deep cross-modal reasoning to ground entities and disentangle roles, attributes, and interactions, yielding subject-aware hidden states that condition the diffusion transformer for high-fidelity subject-consistent video generation. Experiments on the OpenS2V benchmark demonstrate that our method achieves superior performance across subject consistency, naturalness, and text relevance in generated videos, outperforming existing open-source and commercial models.
PDF32October 2, 2025