PolyVivid: Levendige Multi-Onderwerp Videogeneratie met Cross-Modale Interactie en Verbetering
PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement
June 9, 2025
Auteurs: Teng Hu, Zhentao Yu, Zhengguang Zhou, Jiangning Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
cs.AI
Samenvatting
Ondanks recente vooruitgang in videogeneratie ontbreekt het bestaande modellen nog steeds aan fijnmazige bestuurbaarheid, met name voor maatwerk met meerdere onderwerpen waarbij consistentie in identiteit en interactie vereist is. In dit artikel introduceren we PolyVivid, een raamwerk voor videomaatwerk met meerdere onderwerpen dat flexibele en identiteitsconsistente generatie mogelijk maakt. Om nauwkeurige correspondenties tussen onderwerpafbeeldingen en tekstuele entiteiten te creëren, ontwerpen we een VLLM-gebaseerde tekst-beeld-fusiemodule die visuele identiteiten in de tekstuele ruimte inbedt voor precieze verankering. Om identiteitsbehoud en onderwerpinteractie verder te verbeteren, stellen we een 3D-RoPE-gebaseerde verbetermodule voor die gestructureerde bidirectionele fusie tussen tekst- en beeldembeddingen mogelijk maakt. Daarnaast ontwikkelen we een aandacht-geërfd identiteitsinjectiemodule om gefuseerde identiteitskenmerken effectief in het videogeneratieproces te injecteren, waardoor identiteitsdrift wordt verminderd. Tot slot bouwen we een MLLM-gebaseerd datapipeline dat MLLM-gebaseerde verankering, segmentatie en een op cliques gebaseerde onderwerpconsolidatiestrategie combineert om hoogwaardige gegevens met meerdere onderwerpen te produceren, waardoor onderwerponderscheiding effectief wordt verbeterd en ambiguïteit in downstream videogeneratie wordt verminderd. Uitgebreide experimenten tonen aan dat PolyVivid superieure prestaties levert op het gebied van identiteitsgetrouwheid, videorealisme en onderwerpuitlijning, en daarmee bestaande open-source en commerciële referentiemodellen overtreft.
English
Despite recent advances in video generation, existing models still lack
fine-grained controllability, especially for multi-subject customization with
consistent identity and interaction. In this paper, we propose PolyVivid, a
multi-subject video customization framework that enables flexible and
identity-consistent generation. To establish accurate correspondences between
subject images and textual entities, we design a VLLM-based text-image fusion
module that embeds visual identities into the textual space for precise
grounding. To further enhance identity preservation and subject interaction, we
propose a 3D-RoPE-based enhancement module that enables structured
bidirectional fusion between text and image embeddings. Moreover, we develop an
attention-inherited identity injection module to effectively inject fused
identity features into the video generation process, mitigating identity drift.
Finally, we construct an MLLM-based data pipeline that combines MLLM-based
grounding, segmentation, and a clique-based subject consolidation strategy to
produce high-quality multi-subject data, effectively enhancing subject
distinction and reducing ambiguity in downstream video generation. Extensive
experiments demonstrate that PolyVivid achieves superior performance in
identity fidelity, video realism, and subject alignment, outperforming existing
open-source and commercial baselines.