PolyVivid: Generazione di Video Multi-Soggetto Vividi con Interazione e Potenziamento Cross-Modale
PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement
June 9, 2025
Autori: Teng Hu, Zhentao Yu, Zhengguang Zhou, Jiangning Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
cs.AI
Abstract
Nonostante i recenti progressi nella generazione di video, i modelli esistenti mancano ancora di un controllo fine, specialmente per la personalizzazione multi-soggetto con identità e interazione consistenti. In questo articolo, proponiamo PolyVivid, un framework di personalizzazione video multi-soggetto che consente una generazione flessibile e coerente con l'identità. Per stabilire corrispondenze accurate tra immagini di soggetti ed entità testuali, progettiamo un modulo di fusione testo-immagine basato su VLLM che incorpora le identità visive nello spazio testuale per un ancoraggio preciso. Per migliorare ulteriormente la preservazione dell'identità e l'interazione tra i soggetti, proponiamo un modulo di potenziamento basato su 3D-RoPE che abilita una fusione bidirezionale strutturata tra gli embedding di testo e immagine. Inoltre, sviluppiamo un modulo di iniezione dell'identità basato sull'ereditarietà dell'attenzione per iniettare efficacemente le caratteristiche di identità fuse nel processo di generazione video, mitigando la deriva dell'identità. Infine, costruiamo una pipeline di dati basata su MLLM che combina l'ancoraggio, la segmentazione basata su MLLM e una strategia di consolidamento dei soggetti basata su clique per produrre dati multi-soggetto di alta qualità, migliorando efficacemente la distinzione dei soggetti e riducendo l'ambiguità nella generazione video downstream. Esperimenti estensivi dimostrano che PolyVivid raggiunge prestazioni superiori in termini di fedeltà dell'identità, realismo video e allineamento dei soggetti, superando le baseline open-source e commerciali esistenti.
English
Despite recent advances in video generation, existing models still lack
fine-grained controllability, especially for multi-subject customization with
consistent identity and interaction. In this paper, we propose PolyVivid, a
multi-subject video customization framework that enables flexible and
identity-consistent generation. To establish accurate correspondences between
subject images and textual entities, we design a VLLM-based text-image fusion
module that embeds visual identities into the textual space for precise
grounding. To further enhance identity preservation and subject interaction, we
propose a 3D-RoPE-based enhancement module that enables structured
bidirectional fusion between text and image embeddings. Moreover, we develop an
attention-inherited identity injection module to effectively inject fused
identity features into the video generation process, mitigating identity drift.
Finally, we construct an MLLM-based data pipeline that combines MLLM-based
grounding, segmentation, and a clique-based subject consolidation strategy to
produce high-quality multi-subject data, effectively enhancing subject
distinction and reducing ambiguity in downstream video generation. Extensive
experiments demonstrate that PolyVivid achieves superior performance in
identity fidelity, video realism, and subject alignment, outperforming existing
open-source and commercial baselines.