DataDream : Génération de jeux de données guidée par apprentissage en few-shot

papers.abstract

Bien que les modèles de diffusion texte-image aient démontré des résultats de pointe en synthèse d'images, leur efficacité dans les applications en aval reste à prouver. Des travaux antérieurs ont proposé de générer des données pour l'entraînement de classificateurs d'images en cas d'accès limité à des données réelles. Cependant, ces méthodes peinent à générer des images conformes à la distribution cible ou à représenter des caractéristiques fines, limitant ainsi la généralisation des modèles de classification entraînés sur des ensembles de données synthétiques. Nous proposons DataDream, un cadre pour synthétiser des ensembles de données de classification qui représentent plus fidèlement la distribution des données réelles lorsqu'ils sont guidés par quelques exemples des classes cibles. DataDream affine les poids LoRA pour le modèle de génération d'images sur les quelques images réelles avant de générer les données d'entraînement à l'aide du modèle adapté. Nous affinons ensuite les poids LoRA pour CLIP en utilisant les données synthétiques afin d'améliorer la classification d'images en aval par rapport aux approches précédentes sur une grande variété de jeux de données. Nous démontrons l'efficacité de DataDream à travers des expériences approfondies, surpassant la précision de classification de pointe avec peu de données sur 7 des 10 jeux de données, tout en étant compétitif sur les 3 autres. De plus, nous fournissons des insights sur l'impact de divers facteurs, tels que le nombre d'images réelles et générées ainsi que le calcul d'affinage sur la performance du modèle. Le code est disponible à l'adresse https://github.com/ExplainableML/DataDream.

English

While text-to-image diffusion models have been shown to achieve state-of-the-art results in image synthesis, they have yet to prove their effectiveness in downstream applications. Previous work has proposed to generate data for image classifier training given limited real data access. However, these methods struggle to generate in-distribution images or depict fine-grained features, thereby hindering the generalization of classification models trained on synthetic datasets. We propose DataDream, a framework for synthesizing classification datasets that more faithfully represents the real data distribution when guided by few-shot examples of the target classes. DataDream fine-tunes LoRA weights for the image generation model on the few real images before generating the training data using the adapted model. We then fine-tune LoRA weights for CLIP using the synthetic data to improve downstream image classification over previous approaches on a large variety of datasets. We demonstrate the efficacy of DataDream through extensive experiments, surpassing state-of-the-art classification accuracy with few-shot data across 7 out of 10 datasets, while being competitive on the other 3. Additionally, we provide insights into the impact of various factors, such as the number of real-shot and generated images as well as the fine-tuning compute on model performance. The code is available at https://github.com/ExplainableML/DataDream.

DataDream : Génération de jeux de données guidée par apprentissage en few-shot

DataDream: Few-shot Guided Dataset Generation

papers.abstract

Support