DataDream: Генерация набора данных с небольшим количеством обучающих примеров

Аннотация

Хотя модели диффузии текста в изображение показали себя как лучшие в области синтеза изображений, они до сих пор не доказали свою эффективность в прикладных задачах. В предыдущих работах предлагалось генерировать данные для обучения классификатора изображений при ограниченном доступе к реальным данным. Однако эти методы испытывают затруднения при генерации изображений в пределах распределения или изображении детализированных особенностей, что затрудняет обобщение моделей классификации, обученных на синтетических наборах данных. Мы предлагаем DataDream, фреймворк для синтеза наборов данных для классификации, который более точно отражает реальное распределение данных при помощи нескольких примеров целевых классов. DataDream донастраивает веса LoRA для модели генерации изображений на нескольких реальных изображениях перед генерацией обучающих данных с использованием адаптированной модели. Затем мы донастраиваем веса LoRA для CLIP с использованием синтетических данных для улучшения классификации изображений в прикладных задачах по сравнению с предыдущими подходами на большом количестве наборов данных. Мы демонстрируем эффективность DataDream через обширные эксперименты, превосходя современную точность классификации с небольшим количеством данных на 7 из 10 наборов данных, при этом оставаясь конкурентоспособными на остальных 3. Кроме того, мы предоставляем понимание влияния различных факторов, таких как количество реальных и сгенерированных изображений, а также вычислительную донастройку на производительность модели. Код доступен по ссылке https://github.com/ExplainableML/DataDream.

English

While text-to-image diffusion models have been shown to achieve state-of-the-art results in image synthesis, they have yet to prove their effectiveness in downstream applications. Previous work has proposed to generate data for image classifier training given limited real data access. However, these methods struggle to generate in-distribution images or depict fine-grained features, thereby hindering the generalization of classification models trained on synthetic datasets. We propose DataDream, a framework for synthesizing classification datasets that more faithfully represents the real data distribution when guided by few-shot examples of the target classes. DataDream fine-tunes LoRA weights for the image generation model on the few real images before generating the training data using the adapted model. We then fine-tune LoRA weights for CLIP using the synthetic data to improve downstream image classification over previous approaches on a large variety of datasets. We demonstrate the efficacy of DataDream through extensive experiments, surpassing state-of-the-art classification accuracy with few-shot data across 7 out of 10 datasets, while being competitive on the other 3. Additionally, we provide insights into the impact of various factors, such as the number of real-shot and generated images as well as the fine-tuning compute on model performance. The code is available at https://github.com/ExplainableML/DataDream.

DataDream: Генерация набора данных с небольшим количеством обучающих примеров

DataDream: Few-shot Guided Dataset Generation

Аннотация

Support