Stand-In: Um Controle de Identidade Leve e Plug-and-Play para Geração de Vídeo
Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation
August 11, 2025
Autores: Bowen Xue, Qixin Yan, Wenjing Wang, Hao Liu, Chen Li
cs.AI
Resumo
Gerar vídeos humanos de alta fidelidade que correspondam a identidades especificadas pelo usuário é importante, mas desafiador no campo da IA generativa. Os métodos existentes frequentemente dependem de um número excessivo de parâmetros de treinamento e carecem de compatibilidade com outras ferramentas de AIGC. Neste artigo, propomos o Stand-In, uma estrutura leve e plug-and-play para preservação de identidade na geração de vídeos. Especificamente, introduzimos um ramo condicional de imagem no modelo pré-treinado de geração de vídeos. O controle de identidade é alcançado por meio de auto-atenções restritas com mapeamento posicional condicional e pode ser aprendido rapidamente com apenas 2000 pares. Apesar de incorporar e treinar apenas sim1\% de parâmetros adicionais, nossa estrutura obtém excelentes resultados em qualidade de vídeo e preservação de identidade, superando outros métodos de treinamento com todos os parâmetros. Além disso, nossa estrutura pode ser integrada de forma contínua para outras tarefas, como geração de vídeos orientada por sujeitos, geração de vídeos referenciados por pose, estilização e troca de rostos.
English
Generating high-fidelity human videos that match user-specified identities is
important yet challenging in the field of generative AI. Existing methods often
rely on an excessive number of training parameters and lack compatibility with
other AIGC tools. In this paper, we propose Stand-In, a lightweight and
plug-and-play framework for identity preservation in video generation.
Specifically, we introduce a conditional image branch into the pre-trained
video generation model. Identity control is achieved through restricted
self-attentions with conditional position mapping, and can be learned quickly
with only 2000 pairs. Despite incorporating and training just sim1\%
additional parameters, our framework achieves excellent results in video
quality and identity preservation, outperforming other full-parameter training
methods. Moreover, our framework can be seamlessly integrated for other tasks,
such as subject-driven video generation, pose-referenced video generation,
stylization, and face swapping.