PolyVivid: Яркая генерация видео с несколькими объектами с использованием кросс-модального взаимодействия и улучшения
PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement
June 9, 2025
Авторы: Teng Hu, Zhentao Yu, Zhengguang Zhou, Jiangning Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
cs.AI
Аннотация
Несмотря на недавние достижения в области генерации видео, существующие модели по-прежнему недостаточно контролируемы на детальном уровне, особенно в задачах кастомизации с несколькими объектами, требующих сохранения идентичности и взаимодействия. В данной статье мы представляем PolyVivid — фреймворк для кастомизации видео с несколькими объектами, который обеспечивает гибкую и идентично-согласованную генерацию. Для установления точных соответствий между изображениями объектов и текстовыми сущностями мы разработали модуль слияния текста и изображений на основе VLLM, который встраивает визуальные идентичности в текстовое пространство для точного привязывания. Для дальнейшего улучшения сохранения идентичности и взаимодействия объектов мы предлагаем модуль улучшения на основе 3D-RoPE, который обеспечивает структурированное двунаправленное слияние текстовых и визуальных эмбеддингов. Кроме того, мы разработали модуль инъекции идентичности с наследованием внимания, который эффективно внедряет объединенные признаки идентичности в процесс генерации видео, минимизируя смещение идентичности. Наконец, мы создали конвейер данных на основе MLLM, который объединяет привязывание, сегментацию и стратегию консолидации объектов на основе клик для создания высококачественных данных с несколькими объектами, что значительно улучшает различение объектов и снижает неоднозначность в последующей генерации видео. Многочисленные эксперименты демонстрируют, что PolyVivid достигает превосходных результатов в точности идентичности, реалистичности видео и согласованности объектов, превосходя существующие открытые и коммерческие базовые модели.
English
Despite recent advances in video generation, existing models still lack
fine-grained controllability, especially for multi-subject customization with
consistent identity and interaction. In this paper, we propose PolyVivid, a
multi-subject video customization framework that enables flexible and
identity-consistent generation. To establish accurate correspondences between
subject images and textual entities, we design a VLLM-based text-image fusion
module that embeds visual identities into the textual space for precise
grounding. To further enhance identity preservation and subject interaction, we
propose a 3D-RoPE-based enhancement module that enables structured
bidirectional fusion between text and image embeddings. Moreover, we develop an
attention-inherited identity injection module to effectively inject fused
identity features into the video generation process, mitigating identity drift.
Finally, we construct an MLLM-based data pipeline that combines MLLM-based
grounding, segmentation, and a clique-based subject consolidation strategy to
produce high-quality multi-subject data, effectively enhancing subject
distinction and reducing ambiguity in downstream video generation. Extensive
experiments demonstrate that PolyVivid achieves superior performance in
identity fidelity, video realism, and subject alignment, outperforming existing
open-source and commercial baselines.