스탠드-인: 비디오 생성을 위한 경량형 플러그 앤 플레이 아이덴티티 제어
Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation
August 11, 2025
저자: Bowen Xue, Qixin Yan, Wenjing Wang, Hao Liu, Chen Li
cs.AI
초록
사용자가 지정한 신원과 일치하는 고품질 인간 동영상을 생성하는 것은 생성 AI 분야에서 중요하면서도 도전적인 과제입니다. 기존 방법들은 과도한 수의 학습 파라미터에 의존하며 다른 AIGC 도구와의 호환성이 부족한 경우가 많습니다. 본 논문에서는 동영상 생성에서 신원 보존을 위한 경량화되고 플러그 앤 플레이 방식의 프레임워크인 Stand-In을 제안합니다. 구체적으로, 사전 학습된 동영상 생성 모델에 조건부 이미지 분기를 도입했습니다. 신원 제어는 조건부 위치 매핑을 통한 제한된 자기 주의 메커니즘으로 달성되며, 단 2000개의 데이터 쌍으로도 빠르게 학습할 수 있습니다. 단 sim1\%의 추가 파라미터만 통합하고 학습했음에도 불구하고, 우리의 프레임워크는 동영상 품질과 신원 보존 측면에서 우수한 결과를 달성하며, 다른 완전 파라미터 학습 방법들을 능가합니다. 더욱이, 본 프레임워크는 주체 기반 동영상 생성, 포즈 참조 동영상 생성, 스타일화, 얼굴 교체와 같은 다른 작업에도 원활하게 통합될 수 있습니다.
English
Generating high-fidelity human videos that match user-specified identities is
important yet challenging in the field of generative AI. Existing methods often
rely on an excessive number of training parameters and lack compatibility with
other AIGC tools. In this paper, we propose Stand-In, a lightweight and
plug-and-play framework for identity preservation in video generation.
Specifically, we introduce a conditional image branch into the pre-trained
video generation model. Identity control is achieved through restricted
self-attentions with conditional position mapping, and can be learned quickly
with only 2000 pairs. Despite incorporating and training just sim1\%
additional parameters, our framework achieves excellent results in video
quality and identity preservation, outperforming other full-parameter training
methods. Moreover, our framework can be seamlessly integrated for other tasks,
such as subject-driven video generation, pose-referenced video generation,
stylization, and face swapping.