Stand-In: Легковесное и Plug-and-Play управление идентичностью для генерации видео
Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation
August 11, 2025
Авторы: Bowen Xue, Qixin Yan, Wenjing Wang, Hao Liu, Chen Li
cs.AI
Аннотация
Создание высококачественных видео с людьми, соответствующих заданным пользователем идентичностям, является важной, но сложной задачей в области генеративного ИИ. Существующие методы часто требуют чрезмерного количества обучаемых параметров и несовместимы с другими инструментами AIGC. В данной работе мы предлагаем Stand-In — легковесный и подключаемый фреймворк для сохранения идентичности в генерации видео. В частности, мы добавляем условный ветвь изображения в предварительно обученную модель генерации видео. Управление идентичностью достигается за счет ограниченных механизмов самовнимания с условным позиционным отображением и может быть быстро обучено всего на 2000 пар данных. Несмотря на добавление и обучение всего ~1% дополнительных параметров, наш фреймворк демонстрирует превосходные результаты по качеству видео и сохранению идентичности, превосходя методы с полным обучением параметров. Более того, наш фреймворк может быть легко интегрирован для других задач, таких как генерация видео на основе объекта, генерация видео с учетом позы, стилизация и замена лиц.
English
Generating high-fidelity human videos that match user-specified identities is
important yet challenging in the field of generative AI. Existing methods often
rely on an excessive number of training parameters and lack compatibility with
other AIGC tools. In this paper, we propose Stand-In, a lightweight and
plug-and-play framework for identity preservation in video generation.
Specifically, we introduce a conditional image branch into the pre-trained
video generation model. Identity control is achieved through restricted
self-attentions with conditional position mapping, and can be learned quickly
with only 2000 pairs. Despite incorporating and training just sim1\%
additional parameters, our framework achieves excellent results in video
quality and identity preservation, outperforming other full-parameter training
methods. Moreover, our framework can be seamlessly integrated for other tasks,
such as subject-driven video generation, pose-referenced video generation,
stylization, and face swapping.