Stand-In: Un Controllo dell'Identità Leggero e Plug-and-Play per la Generazione di Video
Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation
August 11, 2025
Autori: Bowen Xue, Qixin Yan, Wenjing Wang, Hao Liu, Chen Li
cs.AI
Abstract
Generare video umani ad alta fedeltà che corrispondano a identità specificate dall'utente è importante ma impegnativo nel campo dell'IA generativa. I metodi esistenti spesso si basano su un numero eccessivo di parametri di addestramento e mancano di compatibilità con altri strumenti AIGC. In questo articolo, proponiamo Stand-In, un framework leggero e plug-and-play per la preservazione dell'identità nella generazione di video. Nello specifico, introduciamo un ramo condizionale di immagini nel modello pre-addestrato di generazione video. Il controllo dell'identità viene ottenuto attraverso auto-attenzioni ristrette con mappatura posizionale condizionale e può essere appreso rapidamente con soli 2000 coppie. Nonostante l'incorporazione e l'addestramento di appena sim1\% di parametri aggiuntivi, il nostro framework raggiunge risultati eccellenti in termini di qualità video e preservazione dell'identità, superando altri metodi di addestramento a parametri completi. Inoltre, il nostro framework può essere integrato senza soluzione di continuità per altre attività, come la generazione di video guidata da soggetti, la generazione di video con riferimento alla posa, la stilizzazione e lo scambio di volti.
English
Generating high-fidelity human videos that match user-specified identities is
important yet challenging in the field of generative AI. Existing methods often
rely on an excessive number of training parameters and lack compatibility with
other AIGC tools. In this paper, we propose Stand-In, a lightweight and
plug-and-play framework for identity preservation in video generation.
Specifically, we introduce a conditional image branch into the pre-trained
video generation model. Identity control is achieved through restricted
self-attentions with conditional position mapping, and can be learned quickly
with only 2000 pairs. Despite incorporating and training just sim1\%
additional parameters, our framework achieves excellent results in video
quality and identity preservation, outperforming other full-parameter training
methods. Moreover, our framework can be seamlessly integrated for other tasks,
such as subject-driven video generation, pose-referenced video generation,
stylization, and face swapping.