ChatPaper.aiChatPaper

PolyVivid: Lebendige Multi-Subjekt-Videogenerierung mit Cross-Modaler Interaktion und Verbesserung

PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement

June 9, 2025
Autoren: Teng Hu, Zhentao Yu, Zhengguang Zhou, Jiangning Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
cs.AI

Zusammenfassung

Trotz jüngster Fortschritte in der Videogenerierung mangelt es bestehenden Modellen immer noch an fein abgestimmter Steuerbarkeit, insbesondere bei der Multi-Subjekt-Anpassung mit konsistenter Identität und Interaktion. In diesem Artikel stellen wir PolyVivid vor, ein Multi-Subjekt-Videoanpassungsframework, das eine flexible und identitätskonsistente Generierung ermöglicht. Um genaue Korrespondenzen zwischen Subjektbildern und textuellen Entitäten herzustellen, entwickeln wir ein VLLM-basiertes Text-Bild-Fusionsmodul, das visuelle Identitäten in den textuellen Raum einbettet, um eine präzise Verankerung zu gewährleisten. Um die Identitätserhaltung und Subjektinteraktion weiter zu verbessern, schlagen wir ein 3D-RoPE-basiertes Erweiterungsmodul vor, das eine strukturierte bidirektionale Fusion zwischen Text- und Bildeinbettungen ermöglicht. Darüber hinaus entwickeln wir ein aufmerksamkeitsvererbtes Identitätseinspeisungsmodul, um fusionierte Identitätsmerkmale effektiv in den Videogenerierungsprozess einzuspeisen und Identitätsdrift zu minimieren. Schließlich konstruieren wir eine MLLM-basierte Datenpipeline, die MLLM-basierte Verankerung, Segmentierung und eine Clique-basierte Subjektkonsolidierungsstrategie kombiniert, um hochwertige Multi-Subjekt-Daten zu erzeugen, die die Subjektunterscheidung effektiv verbessern und Mehrdeutigkeiten in der nachgelagerten Videogenerierung reduzieren. Umfangreiche Experimente zeigen, dass PolyVivid in Bezug auf Identitätstreue, Videorealismus und Subjektausrichtung überlegene Leistungen erzielt und bestehende Open-Source- und kommerzielle Baselines übertrifft.
English
Despite recent advances in video generation, existing models still lack fine-grained controllability, especially for multi-subject customization with consistent identity and interaction. In this paper, we propose PolyVivid, a multi-subject video customization framework that enables flexible and identity-consistent generation. To establish accurate correspondences between subject images and textual entities, we design a VLLM-based text-image fusion module that embeds visual identities into the textual space for precise grounding. To further enhance identity preservation and subject interaction, we propose a 3D-RoPE-based enhancement module that enables structured bidirectional fusion between text and image embeddings. Moreover, we develop an attention-inherited identity injection module to effectively inject fused identity features into the video generation process, mitigating identity drift. Finally, we construct an MLLM-based data pipeline that combines MLLM-based grounding, segmentation, and a clique-based subject consolidation strategy to produce high-quality multi-subject data, effectively enhancing subject distinction and reducing ambiguity in downstream video generation. Extensive experiments demonstrate that PolyVivid achieves superior performance in identity fidelity, video realism, and subject alignment, outperforming existing open-source and commercial baselines.
PDF32June 10, 2025