ChatPaper.aiChatPaper

Stand-In: Un Control de Identidad Ligero y Plug-and-Play para la Generación de Vídeo

Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation

August 11, 2025
Autores: Bowen Xue, Qixin Yan, Wenjing Wang, Hao Liu, Chen Li
cs.AI

Resumen

Generar videos humanos de alta fidelidad que coincidan con identidades especificadas por el usuario es importante pero desafiante en el campo de la IA generativa. Los métodos existentes suelen depender de un número excesivo de parámetros de entrenamiento y carecen de compatibilidad con otras herramientas de AIGC. En este artículo, proponemos Stand-In, un marco ligero y plug-and-play para la preservación de identidades en la generación de videos. Específicamente, introducimos una rama de imagen condicional en el modelo preentrenado de generación de videos. El control de identidad se logra mediante auto-atenciones restringidas con mapeo posicional condicional, y puede aprenderse rápidamente con solo 2000 pares. A pesar de incorporar y entrenar apenas sim1\% de parámetros adicionales, nuestro marco logra resultados excelentes en calidad de video y preservación de identidad, superando a otros métodos de entrenamiento con todos los parámetros. Además, nuestro marco puede integrarse sin problemas para otras tareas, como la generación de videos impulsada por sujetos, generación de videos referenciados por poses, estilización e intercambio de rostros.
English
Generating high-fidelity human videos that match user-specified identities is important yet challenging in the field of generative AI. Existing methods often rely on an excessive number of training parameters and lack compatibility with other AIGC tools. In this paper, we propose Stand-In, a lightweight and plug-and-play framework for identity preservation in video generation. Specifically, we introduce a conditional image branch into the pre-trained video generation model. Identity control is achieved through restricted self-attentions with conditional position mapping, and can be learned quickly with only 2000 pairs. Despite incorporating and training just sim1\% additional parameters, our framework achieves excellent results in video quality and identity preservation, outperforming other full-parameter training methods. Moreover, our framework can be seamlessly integrated for other tasks, such as subject-driven video generation, pose-referenced video generation, stylization, and face swapping.
PDF283August 14, 2025