ChatPaper.aiChatPaper

PolyVivid : Génération de vidéos multi-sujets vives avec interaction et amélioration intermodales

PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement

June 9, 2025
Auteurs: Teng Hu, Zhentao Yu, Zhengguang Zhou, Jiangning Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
cs.AI

Résumé

Malgré les récents progrès dans la génération de vidéos, les modèles existants manquent encore de contrôlabilité fine, en particulier pour la personnalisation multi-sujets avec une identité et une interaction cohérentes. Dans cet article, nous proposons PolyVivid, un cadre de personnalisation vidéo multi-sujets qui permet une génération flexible et cohérente en termes d'identité. Pour établir des correspondances précises entre les images des sujets et les entités textuelles, nous concevons un module de fusion texte-image basé sur VLLM qui intègre les identités visuelles dans l'espace textuel pour un ancrage précis. Pour renforcer davantage la préservation de l'identité et l'interaction des sujets, nous proposons un module d'amélioration basé sur 3D-RoPE qui permet une fusion bidirectionnelle structurée entre les embeddings textuels et visuels. De plus, nous développons un module d'injection d'identité par héritage d'attention pour injecter efficacement les caractéristiques d'identité fusionnées dans le processus de génération vidéo, atténuant ainsi la dérive d'identité. Enfin, nous construisons un pipeline de données basé sur MLLM qui combine l'ancrage, la segmentation et une stratégie de consolidation des sujets basée sur les cliques pour produire des données multi-sujets de haute qualité, améliorant ainsi la distinction des sujets et réduisant l'ambiguïté dans la génération vidéo en aval. Des expériences approfondies démontrent que PolyVivid atteint des performances supérieures en termes de fidélité d'identité, de réalisme vidéo et d'alignement des sujets, surpassant les bases de référence open-source et commerciales existantes.
English
Despite recent advances in video generation, existing models still lack fine-grained controllability, especially for multi-subject customization with consistent identity and interaction. In this paper, we propose PolyVivid, a multi-subject video customization framework that enables flexible and identity-consistent generation. To establish accurate correspondences between subject images and textual entities, we design a VLLM-based text-image fusion module that embeds visual identities into the textual space for precise grounding. To further enhance identity preservation and subject interaction, we propose a 3D-RoPE-based enhancement module that enables structured bidirectional fusion between text and image embeddings. Moreover, we develop an attention-inherited identity injection module to effectively inject fused identity features into the video generation process, mitigating identity drift. Finally, we construct an MLLM-based data pipeline that combines MLLM-based grounding, segmentation, and a clique-based subject consolidation strategy to produce high-quality multi-subject data, effectively enhancing subject distinction and reducing ambiguity in downstream video generation. Extensive experiments demonstrate that PolyVivid achieves superior performance in identity fidelity, video realism, and subject alignment, outperforming existing open-source and commercial baselines.
PDF32June 10, 2025