Stand-In: Eine leichte und Plug-and-Play-Lösung zur Identitätssteuerung für die Videogenerierung
Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation
August 11, 2025
papers.authors: Bowen Xue, Qixin Yan, Wenjing Wang, Hao Liu, Chen Li
cs.AI
papers.abstract
Die Erzeugung hochwertiger menschlicher Videos, die benutzerdefinierten Identitäten entsprechen, ist im Bereich der generativen KI wichtig, aber auch herausfordernd. Bestehende Methoden verlassen sich oft auf eine übermäßige Anzahl von Trainingsparametern und weisen keine Kompatibilität mit anderen AIGC-Tools auf. In diesem Artikel schlagen wir Stand-In vor, ein leichtgewichtiges und Plug-and-Play-fähiges Framework zur Identitätserhaltung bei der Videogenerierung. Konkret führen wir einen konditionalen Bildzweig in das vortrainierte Videogenerierungsmodell ein. Die Identitätskontrolle wird durch eingeschränkte Selbstaufmerksamkeiten mit konditionaler Positionsabbildung erreicht und kann mit nur 2000 Paaren schnell erlernt werden. Obwohl nur etwa 1\% zusätzliche Parameter integriert und trainiert werden, erzielt unser Framework hervorragende Ergebnisse in Bezug auf Videoqualität und Identitätserhaltung und übertrifft andere Methoden mit vollständigem Parametertraining. Darüber hinaus kann unser Framework nahtlos für andere Aufgaben integriert werden, wie subjektgesteuerte Videogenerierung, posenbezogene Videogenerierung, Stilisierung und Gesichtstausch.
English
Generating high-fidelity human videos that match user-specified identities is
important yet challenging in the field of generative AI. Existing methods often
rely on an excessive number of training parameters and lack compatibility with
other AIGC tools. In this paper, we propose Stand-In, a lightweight and
plug-and-play framework for identity preservation in video generation.
Specifically, we introduce a conditional image branch into the pre-trained
video generation model. Identity control is achieved through restricted
self-attentions with conditional position mapping, and can be learned quickly
with only 2000 pairs. Despite incorporating and training just sim1\%
additional parameters, our framework achieves excellent results in video
quality and identity preservation, outperforming other full-parameter training
methods. Moreover, our framework can be seamlessly integrated for other tasks,
such as subject-driven video generation, pose-referenced video generation,
stylization, and face swapping.