Gesichtsadapter für vortrainierte Diffusionsmodelle mit feinkörniger ID- und Attributsteuerung
Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control
May 21, 2024
papers.authors: Yue Han, Junwei Zhu, Keke He, Xu Chen, Yanhao Ge, Wei Li, Xiangtai Li, Jiangning Zhang, Chengjie Wang, Yong Liu
cs.AI
papers.abstract
Aktuelle Methoden zur Gesichtsimitation und -austausch stützen sich hauptsächlich auf GAN-Frameworks, aber in letzter Zeit hat sich der Fokus auf vorab trainierte Diffusionsmodelle für deren überlegene Generierungsfähigkeiten verlagert. Das Training dieser Modelle ist jedoch ressourcenintensiv, und die Ergebnisse haben noch nicht zufriedenstellende Leistungsniveaus erreicht. Um dieses Problem anzugehen, stellen wir Face-Adapter vor, einen effizienten und effektiven Adapter, der für präzise und hochwertige Bearbeitung von Gesichtern für vorab trainierte Diffusionsmodelle entwickelt wurde. Wir beobachten, dass sowohl die Aufgaben der Gesichtsimitation/-austausch im Wesentlichen Kombinationen aus Zielstruktur, ID und Attribut beinhalten. Unser Ziel ist es, die Steuerung dieser Faktoren ausreichend zu entkoppeln, um beide Aufgaben in einem Modell zu erreichen. Speziell enthält unsere Methode: 1) Einen räumlichen Bedingungsgenerator, der präzise Landmarken und Hintergrund liefert; 2) Einen Plug-and-Play-Identitätscodierer, der Gesichtseinbettungen in den Textraum durch einen Transformer-Decoder überträgt; 3) Einen Attributregler, der räumliche Bedingungen und detaillierte Attribute integriert. Face-Adapter erzielt vergleichbare oder sogar überlegene Leistung in Bezug auf Bewegungssteuerungspräzision, ID-Bewahrungsfähigkeit und Generierungsqualität im Vergleich zu vollständig feinabgestimmten Gesichtsimitations/-austauschmodellen. Darüber hinaus integriert sich Face-Adapter nahtlos mit verschiedenen StableDiffusion-Modellen.
English
Current face reenactment and swapping methods mainly rely on GAN frameworks,
but recent focus has shifted to pre-trained diffusion models for their superior
generation capabilities. However, training these models is resource-intensive,
and the results have not yet achieved satisfactory performance levels. To
address this issue, we introduce Face-Adapter, an efficient and effective
adapter designed for high-precision and high-fidelity face editing for
pre-trained diffusion models. We observe that both face reenactment/swapping
tasks essentially involve combinations of target structure, ID and attribute.
We aim to sufficiently decouple the control of these factors to achieve both
tasks in one model. Specifically, our method contains: 1) A Spatial Condition
Generator that provides precise landmarks and background; 2) A Plug-and-play
Identity Encoder that transfers face embeddings to the text space by a
transformer decoder. 3) An Attribute Controller that integrates spatial
conditions and detailed attributes. Face-Adapter achieves comparable or even
superior performance in terms of motion control precision, ID retention
capability, and generation quality compared to fully fine-tuned face
reenactment/swapping models. Additionally, Face-Adapter seamlessly integrates
with various StableDiffusion models.