DataDream : Génération de jeux de données guidée par apprentissage en few-shot
DataDream: Few-shot Guided Dataset Generation
July 15, 2024
Auteurs: Jae Myung Kim, Jessica Bader, Stephan Alaniz, Cordelia Schmid, Zeynep Akata
cs.AI
Résumé
Bien que les modèles de diffusion texte-image aient démontré des résultats de pointe en synthèse d'images, leur efficacité dans les applications en aval reste à prouver. Des travaux antérieurs ont proposé de générer des données pour l'entraînement de classificateurs d'images en cas d'accès limité à des données réelles. Cependant, ces méthodes peinent à générer des images conformes à la distribution cible ou à représenter des caractéristiques fines, limitant ainsi la généralisation des modèles de classification entraînés sur des ensembles de données synthétiques. Nous proposons DataDream, un cadre pour synthétiser des ensembles de données de classification qui représentent plus fidèlement la distribution des données réelles lorsqu'ils sont guidés par quelques exemples des classes cibles. DataDream affine les poids LoRA pour le modèle de génération d'images sur les quelques images réelles avant de générer les données d'entraînement à l'aide du modèle adapté. Nous affinons ensuite les poids LoRA pour CLIP en utilisant les données synthétiques afin d'améliorer la classification d'images en aval par rapport aux approches précédentes sur une grande variété de jeux de données. Nous démontrons l'efficacité de DataDream à travers des expériences approfondies, surpassant la précision de classification de pointe avec peu de données sur 7 des 10 jeux de données, tout en étant compétitif sur les 3 autres. De plus, nous fournissons des insights sur l'impact de divers facteurs, tels que le nombre d'images réelles et générées ainsi que le calcul d'affinage sur la performance du modèle. Le code est disponible à l'adresse https://github.com/ExplainableML/DataDream.
English
While text-to-image diffusion models have been shown to achieve
state-of-the-art results in image synthesis, they have yet to prove their
effectiveness in downstream applications. Previous work has proposed to
generate data for image classifier training given limited real data access.
However, these methods struggle to generate in-distribution images or depict
fine-grained features, thereby hindering the generalization of classification
models trained on synthetic datasets. We propose DataDream, a framework for
synthesizing classification datasets that more faithfully represents the real
data distribution when guided by few-shot examples of the target classes.
DataDream fine-tunes LoRA weights for the image generation model on the few
real images before generating the training data using the adapted model. We
then fine-tune LoRA weights for CLIP using the synthetic data to improve
downstream image classification over previous approaches on a large variety of
datasets. We demonstrate the efficacy of DataDream through extensive
experiments, surpassing state-of-the-art classification accuracy with few-shot
data across 7 out of 10 datasets, while being competitive on the other 3.
Additionally, we provide insights into the impact of various factors, such as
the number of real-shot and generated images as well as the fine-tuning compute
on model performance. The code is available at
https://github.com/ExplainableML/DataDream.Summary
AI-Generated Summary