ChatPaper.aiChatPaper

Gesichtsadapter für vortrainierte Diffusionsmodelle mit feinkörniger ID- und Attributsteuerung

Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control

May 21, 2024
papers.authors: Yue Han, Junwei Zhu, Keke He, Xu Chen, Yanhao Ge, Wei Li, Xiangtai Li, Jiangning Zhang, Chengjie Wang, Yong Liu
cs.AI

papers.abstract

Aktuelle Methoden zur Gesichtsimitation und -austausch stützen sich hauptsächlich auf GAN-Frameworks, aber in letzter Zeit hat sich der Fokus auf vorab trainierte Diffusionsmodelle für deren überlegene Generierungsfähigkeiten verlagert. Das Training dieser Modelle ist jedoch ressourcenintensiv, und die Ergebnisse haben noch nicht zufriedenstellende Leistungsniveaus erreicht. Um dieses Problem anzugehen, stellen wir Face-Adapter vor, einen effizienten und effektiven Adapter, der für präzise und hochwertige Bearbeitung von Gesichtern für vorab trainierte Diffusionsmodelle entwickelt wurde. Wir beobachten, dass sowohl die Aufgaben der Gesichtsimitation/-austausch im Wesentlichen Kombinationen aus Zielstruktur, ID und Attribut beinhalten. Unser Ziel ist es, die Steuerung dieser Faktoren ausreichend zu entkoppeln, um beide Aufgaben in einem Modell zu erreichen. Speziell enthält unsere Methode: 1) Einen räumlichen Bedingungsgenerator, der präzise Landmarken und Hintergrund liefert; 2) Einen Plug-and-Play-Identitätscodierer, der Gesichtseinbettungen in den Textraum durch einen Transformer-Decoder überträgt; 3) Einen Attributregler, der räumliche Bedingungen und detaillierte Attribute integriert. Face-Adapter erzielt vergleichbare oder sogar überlegene Leistung in Bezug auf Bewegungssteuerungspräzision, ID-Bewahrungsfähigkeit und Generierungsqualität im Vergleich zu vollständig feinabgestimmten Gesichtsimitations/-austauschmodellen. Darüber hinaus integriert sich Face-Adapter nahtlos mit verschiedenen StableDiffusion-Modellen.
English
Current face reenactment and swapping methods mainly rely on GAN frameworks, but recent focus has shifted to pre-trained diffusion models for their superior generation capabilities. However, training these models is resource-intensive, and the results have not yet achieved satisfactory performance levels. To address this issue, we introduce Face-Adapter, an efficient and effective adapter designed for high-precision and high-fidelity face editing for pre-trained diffusion models. We observe that both face reenactment/swapping tasks essentially involve combinations of target structure, ID and attribute. We aim to sufficiently decouple the control of these factors to achieve both tasks in one model. Specifically, our method contains: 1) A Spatial Condition Generator that provides precise landmarks and background; 2) A Plug-and-play Identity Encoder that transfers face embeddings to the text space by a transformer decoder. 3) An Attribute Controller that integrates spatial conditions and detailed attributes. Face-Adapter achieves comparable or even superior performance in terms of motion control precision, ID retention capability, and generation quality compared to fully fine-tuned face reenactment/swapping models. Additionally, Face-Adapter seamlessly integrates with various StableDiffusion models.
PDF265December 15, 2024