ChatPaper.aiChatPaper

Stand-In : Un contrôle d'identité léger et plug-and-play pour la génération vidéo

Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation

August 11, 2025
papers.authors: Bowen Xue, Qixin Yan, Wenjing Wang, Hao Liu, Chen Li
cs.AI

papers.abstract

La génération de vidéos humaines haute fidélité correspondant à des identités spécifiées par l'utilisateur est un enjeu important mais complexe dans le domaine de l'IA générative. Les méthodes existantes reposent souvent sur un nombre excessif de paramètres d'entraînement et manquent de compatibilité avec d'autres outils AIGC. Dans cet article, nous proposons Stand-In, un framework léger et plug-and-play pour la préservation de l'identité dans la génération de vidéos. Plus précisément, nous introduisons une branche d'image conditionnelle dans un modèle de génération de vidéos pré-entraîné. Le contrôle de l'identité est réalisé via des mécanismes d'auto-attention restreinte avec un mapping positionnel conditionnel, et peut être appris rapidement avec seulement 2000 paires. Bien qu'il n'incorpore et n'entraîne qu'environ 1 % de paramètres supplémentaires, notre framework obtient d'excellents résultats en termes de qualité vidéo et de préservation de l'identité, surpassant d'autres méthodes d'entraînement à paramètres complets. De plus, notre framework peut être intégré de manière transparente pour d'autres tâches, telles que la génération de vidéos pilotée par un sujet, la génération de vidéos référencées par la pose, la stylisation et l'échange de visages.
English
Generating high-fidelity human videos that match user-specified identities is important yet challenging in the field of generative AI. Existing methods often rely on an excessive number of training parameters and lack compatibility with other AIGC tools. In this paper, we propose Stand-In, a lightweight and plug-and-play framework for identity preservation in video generation. Specifically, we introduce a conditional image branch into the pre-trained video generation model. Identity control is achieved through restricted self-attentions with conditional position mapping, and can be learned quickly with only 2000 pairs. Despite incorporating and training just sim1\% additional parameters, our framework achieves excellent results in video quality and identity preservation, outperforming other full-parameter training methods. Moreover, our framework can be seamlessly integrated for other tasks, such as subject-driven video generation, pose-referenced video generation, stylization, and face swapping.
PDF283August 14, 2025