Génération de données synthétiques multi-images pour la personnalisation texte-image
Generating Multi-Image Synthetic Data for Text-to-Image Customization
February 3, 2025
Auteurs: Nupur Kumari, Xi Yin, Jun-Yan Zhu, Ishan Misra, Samaneh Azadi
cs.AI
Résumé
La personnalisation des modèles texte-image permet aux utilisateurs d'insérer des concepts personnalisés et de générer ces concepts dans des environnements non vus. Les méthodes existantes reposent soit sur une optimisation coûteuse au moment du test, soit sur la formation des encodeurs sur des ensembles de données d'entraînement à une seule image sans supervision multi-image, ce qui entraîne une qualité d'image inférieure. Nous proposons une approche simple qui aborde ces deux limitations. Nous exploitons d'abord les modèles texte-image existants et les ensembles de données 3D pour créer un ensemble de données de personnalisation synthétique de haute qualité (SynCD) composé de plusieurs images du même objet dans des éclairages, des arrière-plans et des poses différents. Ensuite, nous proposons une nouvelle architecture d'encodeur basée sur des mécanismes d'attention partagée qui intègrent mieux les détails visuels fins des images d'entrée. Enfin, nous proposons une nouvelle technique d'inférence qui atténue les problèmes de surexposition lors de l'inférence en normalisant les vecteurs de guidage texte et image. À travers des expériences approfondies, nous montrons que notre modèle, formé sur l'ensemble de données synthétique avec l'encodeur et l'algorithme d'inférence proposés, surpasse les méthodes existantes sans réglage sur les référentiels de personnalisation standard.
English
Customization of text-to-image models enables users to insert custom concepts
and generate the concepts in unseen settings. Existing methods either rely on
costly test-time optimization or train encoders on single-image training
datasets without multi-image supervision, leading to worse image quality. We
propose a simple approach that addresses both limitations. We first leverage
existing text-to-image models and 3D datasets to create a high-quality
Synthetic Customization Dataset (SynCD) consisting of multiple images of the
same object in different lighting, backgrounds, and poses. We then propose a
new encoder architecture based on shared attention mechanisms that better
incorporate fine-grained visual details from input images. Finally, we propose
a new inference technique that mitigates overexposure issues during inference
by normalizing the text and image guidance vectors. Through extensive
experiments, we show that our model, trained on the synthetic dataset with the
proposed encoder and inference algorithm, outperforms existing tuning-free
methods on standard customization benchmarks.Summary
AI-Generated Summary