Stellen Sie sich vor: Abstimmungsfreie personalisierte Bildgenerierung.
Imagine yourself: Tuning-Free Personalized Image Generation
September 20, 2024
Autoren: Zecheng He, Bo Sun, Felix Juefei-Xu, Haoyu Ma, Ankit Ramchandani, Vincent Cheung, Siddharth Shah, Anmol Kalia, Harihar Subramanyam, Alireza Zareian, Li Chen, Ankit Jain, Ning Zhang, Peizhao Zhang, Roshan Sumbaly, Peter Vajda, Animesh Sinha
cs.AI
Zusammenfassung
Diffusionsmodelle haben eine bemerkenswerte Wirksamkeit bei verschiedenen Bild-zu-Bild-Aufgaben gezeigt. In dieser Forschung stellen wir Imagine yourself vor, ein hochmodernes Modell, das für die personalisierte Bildgenerierung entwickelt wurde. Im Gegensatz zu herkömmlichen, auf Abstimmung basierenden Personalisierungstechniken arbeitet Imagine yourself als ein abstimmungsfreies Modell, das es allen Benutzern ermöglicht, einen gemeinsamen Rahmen ohne individualisierte Anpassungen zu nutzen. Darüber hinaus haben vorherige Arbeiten Schwierigkeiten bei der Balance zwischen Identitätserhaltung, dem Befolgen komplexer Anweisungen und der Beibehaltung guter visueller Qualität festgestellt, was dazu führte, dass Modelle einen starken Kopier-Effekt der Referenzbilder aufweisen. Daher können sie kaum Bilder generieren, die Anweisungen folgen, die bedeutende Veränderungen am Referenzbild erfordern, z. B. Änderungen der Gesichtsausdrücke, Kopf- und Körperhaltungen, und die Vielfalt der generierten Bilder ist gering. Um diese Einschränkungen zu überwinden, führt unsere vorgeschlagene Methode 1) einen neuen Mechanismus zur Erzeugung synthetischer gepaarter Daten ein, um die Bildvielfalt zu fördern, 2) eine vollständig parallele Aufmerksamkeitsarchitektur mit drei Textencodern und einem vollständig trainierbaren Visionencoder zur Verbesserung der Texttreue, und 3) eine neuartige grob-zu-fein Mehrstufenfeinabstimmungsmethodik ein, die allmählich die Grenze der visuellen Qualität vorantreibt. Unsere Studie zeigt, dass Imagine yourself das hochmoderne Personalisierungsmodell übertrifft und überlegene Fähigkeiten bei der Identitätserhaltung, visuellen Qualität und Textausrichtung aufweist. Dieses Modell legt eine robuste Grundlage für verschiedene Personalisierungsanwendungen. Die Ergebnisse der menschlichen Bewertung bestätigen die SOTA-Überlegenheit des Modells in allen Aspekten (Identitätserhaltung, Texttreue und visueller Anziehungskraft) im Vergleich zu den vorherigen Personalisierungsmodellen.
English
Diffusion models have demonstrated remarkable efficacy across various
image-to-image tasks. In this research, we introduce Imagine yourself, a
state-of-the-art model designed for personalized image generation. Unlike
conventional tuning-based personalization techniques, Imagine yourself operates
as a tuning-free model, enabling all users to leverage a shared framework
without individualized adjustments. Moreover, previous work met challenges
balancing identity preservation, following complex prompts and preserving good
visual quality, resulting in models having strong copy-paste effect of the
reference images. Thus, they can hardly generate images following prompts that
require significant changes to the reference image, \eg, changing facial
expression, head and body poses, and the diversity of the generated images is
low. To address these limitations, our proposed method introduces 1) a new
synthetic paired data generation mechanism to encourage image diversity, 2) a
fully parallel attention architecture with three text encoders and a fully
trainable vision encoder to improve the text faithfulness, and 3) a novel
coarse-to-fine multi-stage finetuning methodology that gradually pushes the
boundary of visual quality. Our study demonstrates that Imagine yourself
surpasses the state-of-the-art personalization model, exhibiting superior
capabilities in identity preservation, visual quality, and text alignment. This
model establishes a robust foundation for various personalization applications.
Human evaluation results validate the model's SOTA superiority across all
aspects (identity preservation, text faithfulness, and visual appeal) compared
to the previous personalization models.Summary
AI-Generated Summary