ChatPaper.aiChatPaper

PolyVivid: Geração de Vídeos Vívidos com Múltiplos Assuntos por meio de Interação e Aprimoramento Multimodal

PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement

June 9, 2025
Autores: Teng Hu, Zhentao Yu, Zhengguang Zhou, Jiangning Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
cs.AI

Resumo

Apesar dos avanços recentes na geração de vídeos, os modelos existentes ainda carecem de controle refinado, especialmente para a personalização de múltiplos sujeitos com identidade e interação consistentes. Neste artigo, propomos o PolyVivid, uma estrutura de personalização de vídeo para múltiplos sujeitos que permite uma geração flexível e consistente em termos de identidade. Para estabelecer correspondências precisas entre imagens de sujeitos e entidades textuais, projetamos um módulo de fusão texto-imagem baseado em VLLM que incorpora identidades visuais no espaço textual para um enraizamento preciso. Para aprimorar ainda mais a preservação da identidade e a interação entre sujeitos, propomos um módulo de aprimoramento baseado em 3D-RoPE que permite uma fusão bidirecional estruturada entre embeddings de texto e imagem. Além disso, desenvolvemos um módulo de injeção de identidade baseado em herança de atenção para injetar efetivamente características de identidade fundidas no processo de geração de vídeo, mitigando o desvio de identidade. Por fim, construímos um pipeline de dados baseado em MLLM que combina enraizamento, segmentação baseada em MLLM e uma estratégia de consolidação de sujeitos baseada em cliques para produzir dados de alta qualidade com múltiplos sujeitos, aprimorando efetivamente a distinção entre sujeitos e reduzindo a ambiguidade na geração de vídeo subsequente. Experimentos extensivos demonstram que o PolyVivid alcança desempenho superior em fidelidade de identidade, realismo de vídeo e alinhamento de sujeitos, superando as bases de código aberto e comerciais existentes.
English
Despite recent advances in video generation, existing models still lack fine-grained controllability, especially for multi-subject customization with consistent identity and interaction. In this paper, we propose PolyVivid, a multi-subject video customization framework that enables flexible and identity-consistent generation. To establish accurate correspondences between subject images and textual entities, we design a VLLM-based text-image fusion module that embeds visual identities into the textual space for precise grounding. To further enhance identity preservation and subject interaction, we propose a 3D-RoPE-based enhancement module that enables structured bidirectional fusion between text and image embeddings. Moreover, we develop an attention-inherited identity injection module to effectively inject fused identity features into the video generation process, mitigating identity drift. Finally, we construct an MLLM-based data pipeline that combines MLLM-based grounding, segmentation, and a clique-based subject consolidation strategy to produce high-quality multi-subject data, effectively enhancing subject distinction and reducing ambiguity in downstream video generation. Extensive experiments demonstrate that PolyVivid achieves superior performance in identity fidelity, video realism, and subject alignment, outperforming existing open-source and commercial baselines.
PDF32June 10, 2025