DataDream: 소샷 가이드 데이터셋 생성
DataDream: Few-shot Guided Dataset Generation
July 15, 2024
저자: Jae Myung Kim, Jessica Bader, Stephan Alaniz, Cordelia Schmid, Zeynep Akata
cs.AI
초록
텍스트-이미지 확산 모델은 이미지 합성 분야에서 최첨단 성과를 달성한 것으로 입증되었지만, 다운스트림 애플리케이션에서의 효과성은 아직 입증되지 않았습니다. 기존 연구에서는 제한된 실제 데이터 접근 상황에서 이미지 분류기 훈련을 위한 데이터를 생성하는 방법을 제안했습니다. 그러나 이러한 방법들은 분포 내 이미지를 생성하거나 세밀한 특징을 묘사하는 데 어려움을 겪어, 합성 데이터셋으로 훈련된 분류 모델의 일반화를 방해했습니다. 우리는 DataDream을 제안합니다. 이는 대상 클래스의 소수 샘플 예제를 기반으로 실제 데이터 분포를 더 충실히 반영하는 분류 데이터셋을 합성하기 위한 프레임워크입니다. DataDream은 소수의 실제 이미지에 대해 이미지 생성 모델의 LoRA 가중치를 미세 조정한 후, 조정된 모델을 사용하여 훈련 데이터를 생성합니다. 그런 다음 합성 데이터를 사용하여 CLIP의 LoRA 가중치를 미세 조정하여 다양한 데이터셋에서 이전 접근법보다 향상된 다운스트림 이미지 분류 성능을 달성합니다. 우리는 광범위한 실험을 통해 DataDream의 효능을 입증하며, 10개 데이터셋 중 7개에서 소수 샘플 데이터를 사용한 최첨단 분류 정확도를 능가하고, 나머지 3개에서도 경쟁력 있는 성능을 보여줍니다. 또한, 실제 샘플 수와 생성된 이미지 수, 미세 조정 컴퓨팅 리소스 등 다양한 요소가 모델 성능에 미치는 영향에 대한 통찰을 제공합니다. 코드는 https://github.com/ExplainableML/DataDream에서 확인할 수 있습니다.
English
While text-to-image diffusion models have been shown to achieve
state-of-the-art results in image synthesis, they have yet to prove their
effectiveness in downstream applications. Previous work has proposed to
generate data for image classifier training given limited real data access.
However, these methods struggle to generate in-distribution images or depict
fine-grained features, thereby hindering the generalization of classification
models trained on synthetic datasets. We propose DataDream, a framework for
synthesizing classification datasets that more faithfully represents the real
data distribution when guided by few-shot examples of the target classes.
DataDream fine-tunes LoRA weights for the image generation model on the few
real images before generating the training data using the adapted model. We
then fine-tune LoRA weights for CLIP using the synthetic data to improve
downstream image classification over previous approaches on a large variety of
datasets. We demonstrate the efficacy of DataDream through extensive
experiments, surpassing state-of-the-art classification accuracy with few-shot
data across 7 out of 10 datasets, while being competitive on the other 3.
Additionally, we provide insights into the impact of various factors, such as
the number of real-shot and generated images as well as the fine-tuning compute
on model performance. The code is available at
https://github.com/ExplainableML/DataDream.Summary
AI-Generated Summary