ChatPaper.aiChatPaper

Au-delà des objets : Génération contextuelle de données synthétiques pour la classification fine

Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification

October 28, 2025
papers.authors: William Yang, Xindi Wu, Zhiwei Deng, Esin Tureci, Olga Russakovsky
cs.AI

papers.abstract

Les modèles texte-image (T2I) sont de plus en plus utilisés pour la génération de jeux de données synthétiques, mais la production de données d'entraînement synthétiques efficaces pour la classification reste difficile. Le micro-ajustement d'un modèle T2I avec quelques exemples réels peut aider à améliorer la qualité des données d'entraînement synthétiques ; cependant, il peut également provoquer un surapprentissage et réduire la diversité des échantillons générés. Nous proposons une stratégie de micro-ajustement BOB (BeyondOBjects) pour atténuer ces problèmes dans le cadre de la classification fine. Étant donné un petit ensemble d'exemples réels, nous extrayons d'abord des attributs agnostiques à la classe, tels que l'arrière-plan de la scène et la pose de l'objet. Nous conditionnons ensuite explicitement le micro-ajustement du modèle T2I sur ces attributs et les marginalisons lors de la génération. Cette conception atténue le surapprentissage, préserve l'a priori génératif du modèle T2I, réduit les erreurs d'estimation et minimise davantage les associations inter-classes non intentionnelles. Des expériences approfondies sur plusieurs modèles T2I, architectures de base et jeux de données montrent que notre méthode atteint des performances de pointe en classification fine à faible échantillonnage lorsqu'elle est augmentée par des données synthétiques. Concrètement, BOB surpasse DataDream de 7,4 % sur le jeu de données Aircraft (passant de 50,0 % à 57,4 % lors du micro-ajustement d'un classifieur CLIP avec cinq images réelles augmentées de 100 images synthétiques). Sur trois des quatre benchmarks, le micro-ajustement de modèles avals avec 5 images réelles augmentées par BOB obtient de meilleures performances qu'avec 10 images réelles. Globalement, BOB surpasse l'état de l'art dans 18 des 24 configurations expérimentales, avec des améliorations de précision de plus de 2 % dans 14 de ces configurations.
English
Text-to-image (T2I) models are increasingly used for synthetic dataset generation, but generating effective synthetic training data for classification remains challenging. Fine-tuning a T2I model with a few real examples can help improve the quality of synthetic training data; however, it may also cause overfitting and reduce diversity in the generated samples. We propose a fine-tuning strategy BOB (BeyondOBjects) to mitigate these concerns for fine-grained classification. Given a small set of real examples, we first extract class-agnostic attributes such as scene background and object pose. We then explicitly condition on these attributes during fine-tuning of the T2I model and marginalize them out during generation. This design mitigates overfitting, preserves the T2I model's generative prior, reduces estimation errors, and further minimizes unintended inter-class associations. Extensive experiments across multiple T2I models, backbones, and datasets show that our method achieves state-of-the-art performance in low-shot fine-grained classification when augmented with synthetic data. Concretely, BOB outperforms DataDream by 7.4% on the Aircraft dataset (from 50.0% to 57.4% when fine-tuning a CLIP classifier with five real images augmented with 100 synthetic images). In three of the four benchmarks, fine-tuning downstream models with 5 real images augmented with BOB achieves better performance than fine-tuning with 10 real images. Collectively, BOB outperforms prior art in 18 of 24 experimental settings, with 2+% accuracy improvements in 14 of these settings.
PDF12December 2, 2025