За пределами объектов: контекстная генерация синтетических данных для детальной классификации
Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification
October 28, 2025
Авторы: William Yang, Xindi Wu, Zhiwei Deng, Esin Tureci, Olga Russakovsky
cs.AI
Аннотация
Модели преобразования текста в изображение (T2I) все чаще используются для генерации синтетических наборов данных, однако создание эффективных синтетических обучающих данных для классификации остается сложной задачей. Дообучение T2I-модели на небольшом количестве реальных примеров может помочь повысить качество синтетических обучающих данных, но также может привести к переобучению и снижению разнообразия генерируемых образцов. Мы предлагаем стратегию дообучения BOB (BeyondOBjects) для решения этих проблем в задачах детальной классификации. Имея небольшой набор реальных примеров, мы сначала извлекаем атрибуты, не зависящие от класса (такие как фон сцены и поза объекта). Затем мы явно учитываем эти атрибуты в процессе дообучения T2I-модели и маргинализуем их в процессе генерации. Такой подход снижает риск переобучения, сохраняет генеративные априорные знания модели, уменьшает ошибки оценки и дополнительно минимизирует непреднамеренные междклассовые ассоциации. Многочисленные эксперименты с различными T2I-моделями, базовыми архитектурами и наборами данных показывают, что наш метод достигает наилучших результатов в задачах детальной классификации с малым количеством примеров при использовании синтетических данных для аугментации. В частности, BOB превосходит DataDream на 7.4% на наборе данных Aircraft (увеличивая точность с 50.0% до 57.4% при дообучении классификатора CLIP на пяти реальных изображениях, аугментированных 100 синтетическими). В трех из четырех тестовых наборов дообучение нижестоящих моделей на 5 реальных изображениях, аугментированных с помощью BOB, дает лучшие результаты, чем дообучение на 10 реальных изображениях. В совокупности BOB превосходит предыдущие методы в 18 из 24 экспериментальных условий, причем в 14 из этих случаев улучшение точности составляет 2% и более.
English
Text-to-image (T2I) models are increasingly used for synthetic dataset
generation, but generating effective synthetic training data for classification
remains challenging. Fine-tuning a T2I model with a few real examples can help
improve the quality of synthetic training data; however, it may also cause
overfitting and reduce diversity in the generated samples. We propose a
fine-tuning strategy BOB (BeyondOBjects) to mitigate these concerns for
fine-grained classification. Given a small set of real examples, we first
extract class-agnostic attributes such as scene background and object pose. We
then explicitly condition on these attributes during fine-tuning of the T2I
model and marginalize them out during generation. This design mitigates
overfitting, preserves the T2I model's generative prior, reduces estimation
errors, and further minimizes unintended inter-class associations. Extensive
experiments across multiple T2I models, backbones, and datasets show that our
method achieves state-of-the-art performance in low-shot fine-grained
classification when augmented with synthetic data. Concretely, BOB outperforms
DataDream by 7.4% on the Aircraft dataset (from 50.0% to 57.4% when fine-tuning
a CLIP classifier with five real images augmented with 100 synthetic images).
In three of the four benchmarks, fine-tuning downstream models with 5 real
images augmented with BOB achieves better performance than fine-tuning with 10
real images. Collectively, BOB outperforms prior art in 18 of 24 experimental
settings, with 2+% accuracy improvements in 14 of these settings.