개체를 넘어서: 세분화된 분류를 위한 맥락적 합성 데이터 생성
Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification
October 28, 2025
저자: William Yang, Xindi Wu, Zhiwei Deng, Esin Tureci, Olga Russakovsky
cs.AI
초록
텍스트-이미지(T2I) 모델은 합성 데이터셋 생성에 점점 더 많이 활용되고 있지만, 분류 작업을 위한 효과적인 합성 훈련 데이터를 생성하는 것은 여전히 어려운 과제입니다. 소수의 실제 예시로 T2I 모델을 미세 조정하면 합성 훈련 데이터의 품질을 향상시키는 데 도움이 될 수 있지만, 이는 과적합을 유발하고 생성된 샘플의 다양성을 감소시킬 수도 있습니다. 본 논문에서는 세분화된 분류를 위한 이러한 문제점을 완화하기 위한 미세 조정 전략인 BOB(BeyondOBjects)을 제안합니다. 소규모의 실제 예시 집합이 주어지면, 먼저 장면 배경 및 객체 포즈와 같은 범주-불변 속성을 추출합니다. 그런 다음 T2I 모델 미세 조정 시 이러한 속성을 명시적으로 조건으로 지정하고, 생성 단계에서는 이를 주변화합니다. 이러한 설계는 과적합을 완화하고, T2I 모델의 생성적 사전 지식을 보존하며, 추정 오차를 줄이고, 의도하지 않은 클래스 간 연관을 추가로 최소화합니다. 여러 T2I 모델, 백본 및 데이터셋에 걸친 포괄적인 실험을 통해, 본 방법이 합성 데이터로 증강된 저샷 세분화 분류에서 최첨단 성능을 달성함을 보여줍니다. 구체적으로, BOB은 Aircraft 데이터셋에서 DataDream보다 7.4% 우수한 성능을 보였습니다(5개의 실제 이미지와 100개의 합성 이미지로 증강하여 CLIP 분류기를 미세 조정했을 때 50.0%에서 57.4%로 향상). 4개의 벤치마크 중 3가지에서, BOB으로 증강된 5개의 실제 이미지로 하류 모델을 미세 조정한 결과가 10개의 실제 이미지로 미세 조정한 것보다 더 나은 성능을 달성했습니다. 전체적으로 BOB은 24개의 실험 설정 중 18가지에서 기존 기술을 능가했으며, 이 중 14가지 설정에서 2% 이상의 정확도 향상을 보였습니다.
English
Text-to-image (T2I) models are increasingly used for synthetic dataset
generation, but generating effective synthetic training data for classification
remains challenging. Fine-tuning a T2I model with a few real examples can help
improve the quality of synthetic training data; however, it may also cause
overfitting and reduce diversity in the generated samples. We propose a
fine-tuning strategy BOB (BeyondOBjects) to mitigate these concerns for
fine-grained classification. Given a small set of real examples, we first
extract class-agnostic attributes such as scene background and object pose. We
then explicitly condition on these attributes during fine-tuning of the T2I
model and marginalize them out during generation. This design mitigates
overfitting, preserves the T2I model's generative prior, reduces estimation
errors, and further minimizes unintended inter-class associations. Extensive
experiments across multiple T2I models, backbones, and datasets show that our
method achieves state-of-the-art performance in low-shot fine-grained
classification when augmented with synthetic data. Concretely, BOB outperforms
DataDream by 7.4% on the Aircraft dataset (from 50.0% to 57.4% when fine-tuning
a CLIP classifier with five real images augmented with 100 synthetic images).
In three of the four benchmarks, fine-tuning downstream models with 5 real
images augmented with BOB achieves better performance than fine-tuning with 10
real images. Collectively, BOB outperforms prior art in 18 of 24 experimental
settings, with 2+% accuracy improvements in 14 of these settings.