ChatPaper.aiChatPaper

Stand-In: Een lichtgewicht en plug-and-play identiteitscontrole voor videogeneratie

Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation

August 11, 2025
Auteurs: Bowen Xue, Qixin Yan, Wenjing Wang, Hao Liu, Chen Li
cs.AI

Samenvatting

Het genereren van hoogwaardige menselijke video's die overeenkomen met door de gebruiker gespecificeerde identiteiten is belangrijk maar uitdagend op het gebied van generatieve AI. Bestaande methoden zijn vaak afhankelijk van een overmatig aantal trainingsparameters en missen compatibiliteit met andere AIGC-tools. In dit artikel stellen we Stand-In voor, een lichtgewicht en plug-and-play raamwerk voor identiteitsbehoud in videogeneratie. Specifiek introduceren we een conditionele beeldtak in het vooraf getrainde videogeneratiemodel. Identiteitscontrole wordt bereikt door middel van beperkte zelf-attenties met conditionele positie-mapping, en kan snel worden geleerd met slechts 2000 paren. Ondanks het toevoegen en trainen van slechts sim1\% extra parameters, behaalt ons raamwerk uitstekende resultaten op het gebied van videokwaliteit en identiteitsbehoud, en overtreft het andere methoden die volledige parameters trainen. Bovendien kan ons raamwerk naadloos worden geïntegreerd voor andere taken, zoals onderwerpgedreven videogeneratie, pose-referentie videogeneratie, stilisering en gezichtsverwisseling.
English
Generating high-fidelity human videos that match user-specified identities is important yet challenging in the field of generative AI. Existing methods often rely on an excessive number of training parameters and lack compatibility with other AIGC tools. In this paper, we propose Stand-In, a lightweight and plug-and-play framework for identity preservation in video generation. Specifically, we introduce a conditional image branch into the pre-trained video generation model. Identity control is achieved through restricted self-attentions with conditional position mapping, and can be learned quickly with only 2000 pairs. Despite incorporating and training just sim1\% additional parameters, our framework achieves excellent results in video quality and identity preservation, outperforming other full-parameter training methods. Moreover, our framework can be seamlessly integrated for other tasks, such as subject-driven video generation, pose-referenced video generation, stylization, and face swapping.
PDF393August 14, 2025