PolyVivid: Generación de Vídeo Multitemático Vívido con Interacción y Mejora Intermodal
PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement
June 9, 2025
Autores: Teng Hu, Zhentao Yu, Zhengguang Zhou, Jiangning Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
cs.AI
Resumen
A pesar de los avances recientes en la generación de videos, los modelos existentes aún carecen de controlabilidad detallada, especialmente para la personalización de múltiples sujetos con identidad e interacción consistentes. En este artículo, proponemos PolyVivid, un marco de personalización de videos con múltiples sujetos que permite una generación flexible y consistente en la identidad. Para establecer correspondencias precisas entre imágenes de sujetos y entidades textuales, diseñamos un módulo de fusión texto-imagen basado en VLLM que incrusta identidades visuales en el espacio textual para una anclaje preciso. Para mejorar aún más la preservación de la identidad y la interacción entre sujetos, proponemos un módulo de mejora basado en 3D-RoPE que permite una fusión bidireccional estructurada entre incrustaciones de texto e imágenes. Además, desarrollamos un módulo de inyección de identidad heredado por atención para inyectar eficazmente características de identidad fusionadas en el proceso de generación de videos, mitigando la deriva de identidad. Finalmente, construimos una canalización de datos basada en MLLM que combina anclaje basado en MLLM, segmentación y una estrategia de consolidación de sujetos basada en cliques para producir datos de múltiples sujetos de alta calidad, mejorando efectivamente la distinción de sujetos y reduciendo la ambigüedad en la generación de videos subsiguiente. Experimentos extensos demuestran que PolyVivid logra un rendimiento superior en fidelidad de identidad, realismo de video y alineación de sujetos, superando a las líneas base de código abierto y comerciales existentes.
English
Despite recent advances in video generation, existing models still lack
fine-grained controllability, especially for multi-subject customization with
consistent identity and interaction. In this paper, we propose PolyVivid, a
multi-subject video customization framework that enables flexible and
identity-consistent generation. To establish accurate correspondences between
subject images and textual entities, we design a VLLM-based text-image fusion
module that embeds visual identities into the textual space for precise
grounding. To further enhance identity preservation and subject interaction, we
propose a 3D-RoPE-based enhancement module that enables structured
bidirectional fusion between text and image embeddings. Moreover, we develop an
attention-inherited identity injection module to effectively inject fused
identity features into the video generation process, mitigating identity drift.
Finally, we construct an MLLM-based data pipeline that combines MLLM-based
grounding, segmentation, and a clique-based subject consolidation strategy to
produce high-quality multi-subject data, effectively enhancing subject
distinction and reducing ambiguity in downstream video generation. Extensive
experiments demonstrate that PolyVivid achieves superior performance in
identity fidelity, video realism, and subject alignment, outperforming existing
open-source and commercial baselines.