Stand-In: Un Control de Identidad Ligero y Plug-and-Play para la Generación de Vídeo
Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation
August 11, 2025
Autores: Bowen Xue, Qixin Yan, Wenjing Wang, Hao Liu, Chen Li
cs.AI
Resumen
Generar videos humanos de alta fidelidad que coincidan con identidades especificadas por el usuario es importante pero desafiante en el campo de la IA generativa. Los métodos existentes suelen depender de un número excesivo de parámetros de entrenamiento y carecen de compatibilidad con otras herramientas de AIGC. En este artículo, proponemos Stand-In, un marco ligero y plug-and-play para la preservación de identidades en la generación de videos. Específicamente, introducimos una rama de imagen condicional en el modelo preentrenado de generación de videos. El control de identidad se logra mediante auto-atenciones restringidas con mapeo posicional condicional, y puede aprenderse rápidamente con solo 2000 pares. A pesar de incorporar y entrenar apenas sim1\% de parámetros adicionales, nuestro marco logra resultados excelentes en calidad de video y preservación de identidad, superando a otros métodos de entrenamiento con todos los parámetros. Además, nuestro marco puede integrarse sin problemas para otras tareas, como la generación de videos impulsada por sujetos, generación de videos referenciados por poses, estilización e intercambio de rostros.
English
Generating high-fidelity human videos that match user-specified identities is
important yet challenging in the field of generative AI. Existing methods often
rely on an excessive number of training parameters and lack compatibility with
other AIGC tools. In this paper, we propose Stand-In, a lightweight and
plug-and-play framework for identity preservation in video generation.
Specifically, we introduce a conditional image branch into the pre-trained
video generation model. Identity control is achieved through restricted
self-attentions with conditional position mapping, and can be learned quickly
with only 2000 pairs. Despite incorporating and training just sim1\%
additional parameters, our framework achieves excellent results in video
quality and identity preservation, outperforming other full-parameter training
methods. Moreover, our framework can be seamlessly integrated for other tasks,
such as subject-driven video generation, pose-referenced video generation,
stylization, and face swapping.