ChatPaper.aiChatPaper

За пределами объектов: контекстная генерация синтетических данных для детальной классификации

Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification

October 28, 2025
Авторы: William Yang, Xindi Wu, Zhiwei Deng, Esin Tureci, Olga Russakovsky
cs.AI

Аннотация

Модели преобразования текста в изображение (T2I) все чаще используются для генерации синтетических наборов данных, однако создание эффективных синтетических обучающих данных для классификации остается сложной задачей. Дообучение T2I-модели на небольшом количестве реальных примеров может помочь повысить качество синтетических обучающих данных, но также может привести к переобучению и снижению разнообразия генерируемых образцов. Мы предлагаем стратегию дообучения BOB (BeyondOBjects) для решения этих проблем в задачах детальной классификации. Имея небольшой набор реальных примеров, мы сначала извлекаем атрибуты, не зависящие от класса (такие как фон сцены и поза объекта). Затем мы явно учитываем эти атрибуты в процессе дообучения T2I-модели и маргинализуем их в процессе генерации. Такой подход снижает риск переобучения, сохраняет генеративные априорные знания модели, уменьшает ошибки оценки и дополнительно минимизирует непреднамеренные междклассовые ассоциации. Многочисленные эксперименты с различными T2I-моделями, базовыми архитектурами и наборами данных показывают, что наш метод достигает наилучших результатов в задачах детальной классификации с малым количеством примеров при использовании синтетических данных для аугментации. В частности, BOB превосходит DataDream на 7.4% на наборе данных Aircraft (увеличивая точность с 50.0% до 57.4% при дообучении классификатора CLIP на пяти реальных изображениях, аугментированных 100 синтетическими). В трех из четырех тестовых наборов дообучение нижестоящих моделей на 5 реальных изображениях, аугментированных с помощью BOB, дает лучшие результаты, чем дообучение на 10 реальных изображениях. В совокупности BOB превосходит предыдущие методы в 18 из 24 экспериментальных условий, причем в 14 из этих случаев улучшение точности составляет 2% и более.
English
Text-to-image (T2I) models are increasingly used for synthetic dataset generation, but generating effective synthetic training data for classification remains challenging. Fine-tuning a T2I model with a few real examples can help improve the quality of synthetic training data; however, it may also cause overfitting and reduce diversity in the generated samples. We propose a fine-tuning strategy BOB (BeyondOBjects) to mitigate these concerns for fine-grained classification. Given a small set of real examples, we first extract class-agnostic attributes such as scene background and object pose. We then explicitly condition on these attributes during fine-tuning of the T2I model and marginalize them out during generation. This design mitigates overfitting, preserves the T2I model's generative prior, reduces estimation errors, and further minimizes unintended inter-class associations. Extensive experiments across multiple T2I models, backbones, and datasets show that our method achieves state-of-the-art performance in low-shot fine-grained classification when augmented with synthetic data. Concretely, BOB outperforms DataDream by 7.4% on the Aircraft dataset (from 50.0% to 57.4% when fine-tuning a CLIP classifier with five real images augmented with 100 synthetic images). In three of the four benchmarks, fine-tuning downstream models with 5 real images augmented with BOB achieves better performance than fine-tuning with 10 real images. Collectively, BOB outperforms prior art in 18 of 24 experimental settings, with 2+% accuracy improvements in 14 of these settings.
PDF32February 7, 2026