Stel je voor: Afstemmingsvrije Gepersonaliseerde Beeldgeneratie
Imagine yourself: Tuning-Free Personalized Image Generation
September 20, 2024
Auteurs: Zecheng He, Bo Sun, Felix Juefei-Xu, Haoyu Ma, Ankit Ramchandani, Vincent Cheung, Siddharth Shah, Anmol Kalia, Harihar Subramanyam, Alireza Zareian, Li Chen, Ankit Jain, Ning Zhang, Peizhao Zhang, Roshan Sumbaly, Peter Vajda, Animesh Sinha
cs.AI
Samenvatting
Diffusiemodellen hebben opmerkelijke doeltreffendheid aangetoond bij verschillende beeld-naar-beeld taken. In dit onderzoek introduceren we Imagine yourself, een geavanceerd model ontworpen voor gepersonaliseerde beeldgeneratie. In tegenstelling tot conventionele op afstemming gebaseerde personalisatietechnieken, werkt Imagine yourself als een afstemmingsvrij model, waardoor alle gebruikers kunnen profiteren van een gedeeld kader zonder individuele aanpassingen. Bovendien zijn eerdere werken geconfronteerd met uitdagingen bij het in balans brengen van identiteitsbehoud, het volgen van complexe aanwijzingen en het behouden van goede visuele kwaliteit, resulterend in modellen met een sterk copy-paste effect van de referentiebeelden. Hierdoor kunnen ze nauwelijks afbeeldingen genereren die voldoen aan aanwijzingen die aanzienlijke veranderingen aan het referentiebeeld vereisen, zoals het veranderen van gezichtsuitdrukking, hoofd- en lichaamshoudingen, en de diversiteit van de gegenereerde beelden is laag. Om deze beperkingen aan te pakken, introduceert onze voorgestelde methode 1) een nieuw mechanisme voor het genereren van synthetische gekoppelde gegevens om beelddiversiteit aan te moedigen, 2) een volledig parallelle aandachtsarchitectuur met drie tekstencoders en een volledig trainbare visie-encoder om de tekstgetrouwheid te verbeteren, en 3) een nieuw grof-naar-fijn meertraps verfijningsmethodologie die geleidelijk de grens van visuele kwaliteit verlegt. Onze studie toont aan dat Imagine yourself de geavanceerde personalisatiemodel overtreft, met superieure mogelijkheden op het gebied van identiteitsbehoud, visuele kwaliteit en tekstuitlijning. Dit model legt een solide basis voor verschillende personalisatietoepassingen. Resultaten van menselijke evaluatie bevestigen de SOTA-superioriteit van het model op alle aspecten (identiteitsbehoud, tekstgetrouwheid en visuele aantrekkingskracht) in vergelijking met de eerdere personalisatiemodellen.
English
Diffusion models have demonstrated remarkable efficacy across various
image-to-image tasks. In this research, we introduce Imagine yourself, a
state-of-the-art model designed for personalized image generation. Unlike
conventional tuning-based personalization techniques, Imagine yourself operates
as a tuning-free model, enabling all users to leverage a shared framework
without individualized adjustments. Moreover, previous work met challenges
balancing identity preservation, following complex prompts and preserving good
visual quality, resulting in models having strong copy-paste effect of the
reference images. Thus, they can hardly generate images following prompts that
require significant changes to the reference image, \eg, changing facial
expression, head and body poses, and the diversity of the generated images is
low. To address these limitations, our proposed method introduces 1) a new
synthetic paired data generation mechanism to encourage image diversity, 2) a
fully parallel attention architecture with three text encoders and a fully
trainable vision encoder to improve the text faithfulness, and 3) a novel
coarse-to-fine multi-stage finetuning methodology that gradually pushes the
boundary of visual quality. Our study demonstrates that Imagine yourself
surpasses the state-of-the-art personalization model, exhibiting superior
capabilities in identity preservation, visual quality, and text alignment. This
model establishes a robust foundation for various personalization applications.
Human evaluation results validate the model's SOTA superiority across all
aspects (identity preservation, text faithfulness, and visual appeal) compared
to the previous personalization models.Summary
AI-Generated Summary