ChatPaper.aiChatPaper

Voorbij Objecten: Contextuele Synthetische Datageneratie voor Fijnmazige Classificatie

Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification

October 28, 2025
Auteurs: William Yang, Xindi Wu, Zhiwei Deng, Esin Tureci, Olga Russakovsky
cs.AI

Samenvatting

Tekst-naar-beeldmodellen (T2I) worden steeds vaker gebruikt voor het genereren van synthetische datasets, maar het genereren van effectieve synthetische trainingsgegevens voor classificatie blijft een uitdaging. Het fine-tunen van een T2I-model met enkele reële voorbeelden kan de kwaliteit van de synthetische trainingsgegevens verbeteren; dit kan echter ook leiden tot overfitting en een verminderde diversiteit in de gegenereerde samples. Wij stellen een fine-tuningstrategie voor, genaamd BOB (BeyondOBjects), om deze problemen te mitigeren voor fijnmazige classificatie. Gegeven een kleine set reële voorbeelden, extraheren we eerst klasse-agnostische attributen, zoals de achtergrond van de scène en de pose van het object. Vervolgens conditioneren we expliciet op deze attributen tijdens het fine-tunen van het T2I-model en marginaliseren we deze tijdens de generatie. Dit ontwerp vermindert overfitting, behoudt de generatieve prior van het T2I-model, verkleint schattingsfouten en minimaliseert onbedoelde associaties tussen klassen verder. Uitgebreide experimenten met meerdere T2I-modellen, backbones en datasets tonen aan dat onze methode state-of-the-art prestaties bereikt bij fijnmazige classificatie met weinig voorbeelden wanneer wordt aangevuld met synthetische data. Concreet presteert BOB 7,4% beter dan DataDream op de Aircraft-dataset (van 50,0% naar 57,4% bij het fine-tunen van een CLIP-classificatiemodel met vijf reële afbeeldingen aangevuld met 100 synthetische afbeeldingen). In drie van de vier benchmarks bereikt het fine-tunen van downstream-modellen met 5 reële afbeeldingen aangevuld met BOB betere prestaties dan fine-tunen met 10 reële afbeeldingen. In totaal presteert BOB beter dan eerdere state-of-the-art methoden in 18 van de 24 experimentele settings, met nauwkeurigheidsverbeteringen van 2+% in 14 van deze settings.
English
Text-to-image (T2I) models are increasingly used for synthetic dataset generation, but generating effective synthetic training data for classification remains challenging. Fine-tuning a T2I model with a few real examples can help improve the quality of synthetic training data; however, it may also cause overfitting and reduce diversity in the generated samples. We propose a fine-tuning strategy BOB (BeyondOBjects) to mitigate these concerns for fine-grained classification. Given a small set of real examples, we first extract class-agnostic attributes such as scene background and object pose. We then explicitly condition on these attributes during fine-tuning of the T2I model and marginalize them out during generation. This design mitigates overfitting, preserves the T2I model's generative prior, reduces estimation errors, and further minimizes unintended inter-class associations. Extensive experiments across multiple T2I models, backbones, and datasets show that our method achieves state-of-the-art performance in low-shot fine-grained classification when augmented with synthetic data. Concretely, BOB outperforms DataDream by 7.4% on the Aircraft dataset (from 50.0% to 57.4% when fine-tuning a CLIP classifier with five real images augmented with 100 synthetic images). In three of the four benchmarks, fine-tuning downstream models with 5 real images augmented with BOB achieves better performance than fine-tuning with 10 real images. Collectively, BOB outperforms prior art in 18 of 24 experimental settings, with 2+% accuracy improvements in 14 of these settings.
PDF12December 2, 2025