DataDream: Генерация набора данных с небольшим количеством обучающих примеров
DataDream: Few-shot Guided Dataset Generation
July 15, 2024
Авторы: Jae Myung Kim, Jessica Bader, Stephan Alaniz, Cordelia Schmid, Zeynep Akata
cs.AI
Аннотация
Хотя модели диффузии текста в изображение показали себя как лучшие в области синтеза изображений, они до сих пор не доказали свою эффективность в прикладных задачах. В предыдущих работах предлагалось генерировать данные для обучения классификатора изображений при ограниченном доступе к реальным данным. Однако эти методы испытывают затруднения при генерации изображений в пределах распределения или изображении детализированных особенностей, что затрудняет обобщение моделей классификации, обученных на синтетических наборах данных. Мы предлагаем DataDream, фреймворк для синтеза наборов данных для классификации, который более точно отражает реальное распределение данных при помощи нескольких примеров целевых классов. DataDream донастраивает веса LoRA для модели генерации изображений на нескольких реальных изображениях перед генерацией обучающих данных с использованием адаптированной модели. Затем мы донастраиваем веса LoRA для CLIP с использованием синтетических данных для улучшения классификации изображений в прикладных задачах по сравнению с предыдущими подходами на большом количестве наборов данных. Мы демонстрируем эффективность DataDream через обширные эксперименты, превосходя современную точность классификации с небольшим количеством данных на 7 из 10 наборов данных, при этом оставаясь конкурентоспособными на остальных 3. Кроме того, мы предоставляем понимание влияния различных факторов, таких как количество реальных и сгенерированных изображений, а также вычислительную донастройку на производительность модели. Код доступен по ссылке https://github.com/ExplainableML/DataDream.
English
While text-to-image diffusion models have been shown to achieve
state-of-the-art results in image synthesis, they have yet to prove their
effectiveness in downstream applications. Previous work has proposed to
generate data for image classifier training given limited real data access.
However, these methods struggle to generate in-distribution images or depict
fine-grained features, thereby hindering the generalization of classification
models trained on synthetic datasets. We propose DataDream, a framework for
synthesizing classification datasets that more faithfully represents the real
data distribution when guided by few-shot examples of the target classes.
DataDream fine-tunes LoRA weights for the image generation model on the few
real images before generating the training data using the adapted model. We
then fine-tune LoRA weights for CLIP using the synthetic data to improve
downstream image classification over previous approaches on a large variety of
datasets. We demonstrate the efficacy of DataDream through extensive
experiments, surpassing state-of-the-art classification accuracy with few-shot
data across 7 out of 10 datasets, while being competitive on the other 3.
Additionally, we provide insights into the impact of various factors, such as
the number of real-shot and generated images as well as the fine-tuning compute
on model performance. The code is available at
https://github.com/ExplainableML/DataDream.Summary
AI-Generated Summary