ChatPaper.aiChatPaper

Oltre gli Oggetti: Generazione Contestuale di Dati Sintetici per la Classificazione di Alto Livello

Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification

October 28, 2025
Autori: William Yang, Xindi Wu, Zhiwei Deng, Esin Tureci, Olga Russakovsky
cs.AI

Abstract

I modelli text-to-image (T2I) sono sempre più utilizzati per la generazione di dataset sintetici, ma generare dati di addestramento sintetici efficaci per la classificazione rimane una sfida. Il fine-tuning di un modello T2I con pochi esempi reali può aiutare a migliorare la qualità dei dati di addestramento sintetici; tuttavia, può anche causare overfitting e ridurre la diversità nei campioni generati. Proponiamo una strategia di fine-tuning chiamata BOB (BeyondOBjects) per mitigare questi problemi nella classificazione fine-grained. Dato un piccolo insieme di esempi reali, estraiamo prima attributi agnostici rispetto alla classe, come lo sfondo della scena e la posa dell'oggetto. Condizioniamo quindi esplicitamente il fine-tuning del modello T2I su questi attributi e li marginalizziamo durante la generazione. Questo design mitiga l'overfitting, preserva il priore generativo del modello T2I, riduce gli errori di stima e minimizza ulteriormente associazioni indesiderate tra classi. Esperimenti estesi su molteplici modelli T2I, backbone e dataset mostrano che il nostro metodo raggiunge prestazioni state-of-the-art nella classificazione fine-grained a basso numero di esempi quando arricchita con dati sintetici. Nello specifico, BOB supera DataDream del 7.4% sul dataset Aircraft (passando dal 50.0% al 57.4% quando si effettua il fine-tuning di un classificatore CLIP con cinque immagini reali arricchite con 100 immagini sintetiche). In tre dei quattro benchmark, il fine-tuning di modelli downstream con 5 immagini reali arricchite con BOB ottiene prestazioni migliori rispetto al fine-tuning con 10 immagini reali. Nel complesso, BOB supera lo stato dell'arte in 18 delle 24 configurazioni sperimentali, con miglioramenti di accuratezza superiori al 2% in 14 di queste configurazioni.
English
Text-to-image (T2I) models are increasingly used for synthetic dataset generation, but generating effective synthetic training data for classification remains challenging. Fine-tuning a T2I model with a few real examples can help improve the quality of synthetic training data; however, it may also cause overfitting and reduce diversity in the generated samples. We propose a fine-tuning strategy BOB (BeyondOBjects) to mitigate these concerns for fine-grained classification. Given a small set of real examples, we first extract class-agnostic attributes such as scene background and object pose. We then explicitly condition on these attributes during fine-tuning of the T2I model and marginalize them out during generation. This design mitigates overfitting, preserves the T2I model's generative prior, reduces estimation errors, and further minimizes unintended inter-class associations. Extensive experiments across multiple T2I models, backbones, and datasets show that our method achieves state-of-the-art performance in low-shot fine-grained classification when augmented with synthetic data. Concretely, BOB outperforms DataDream by 7.4% on the Aircraft dataset (from 50.0% to 57.4% when fine-tuning a CLIP classifier with five real images augmented with 100 synthetic images). In three of the four benchmarks, fine-tuning downstream models with 5 real images augmented with BOB achieves better performance than fine-tuning with 10 real images. Collectively, BOB outperforms prior art in 18 of 24 experimental settings, with 2+% accuracy improvements in 14 of these settings.
PDF12December 2, 2025