ChatPaper.aiChatPaper

オブジェクトを超えて:細粒度分類のための文脈的合成データ生成

Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification

October 28, 2025
著者: William Yang, Xindi Wu, Zhiwei Deng, Esin Tureci, Olga Russakovsky
cs.AI

要旨

テキストから画像への変換(T2I)モデルは、合成データセット生成にますます利用されているが、分類タスクのための効果的な合成訓練データの生成は依然として課題である。少数の実例でT2Iモデルをファインチューニングすることは、合成訓練データの品質向上に寄与する可能性がある。しかしながら、過剰適合を引き起こし、生成サンプルの多様性を減少させる恐れもある。本論文では、細粒度分類におけるこれらの懸念を軽減するためのファインチューニング戦略BOB(BeyondOBjects)を提案する。少数の実例集合が与えられた場合、我々はまずシーンの背景やオブジェクトのポーズといったクラス非依存の属性を抽出する。次に、T2Iモデルのファインチューニング中にこれらの属性を明示的に条件付けし、生成時にはそれらを周辺化除去する。この設計により、過剰適合が緩和され、T2Iモデルの生成的な事前分布が保持され、推定誤差が低減され、さらに意図しないクラス間の関連付けが最小限に抑えられる。複数のT2Iモデル、バックボーン、データセットを用いた広範な実験により、本手法が合成データで拡張された低ショット細粒度分類において、最先端の性能を達成することが示された。具体的には、Aircraftデータセットにおいて、BOBはDataDreamを7.4%上回った(5枚の実画像と100枚の合成画像で拡張してCLIP分類器をファインチューニングした場合、50.0%から57.4%に向上)。4つのベンチマークのうち3つにおいて、5枚の実画像をBOBで拡張して下流モデルをファインチューニングした場合、10枚の実画像でファインチューニングするよりも優れた性能を達成した。全体として、BOBは24の実験設定のうち18の設定で従来技術を凌駕し、そのうち14の設定で精度が2%以上向上した。
English
Text-to-image (T2I) models are increasingly used for synthetic dataset generation, but generating effective synthetic training data for classification remains challenging. Fine-tuning a T2I model with a few real examples can help improve the quality of synthetic training data; however, it may also cause overfitting and reduce diversity in the generated samples. We propose a fine-tuning strategy BOB (BeyondOBjects) to mitigate these concerns for fine-grained classification. Given a small set of real examples, we first extract class-agnostic attributes such as scene background and object pose. We then explicitly condition on these attributes during fine-tuning of the T2I model and marginalize them out during generation. This design mitigates overfitting, preserves the T2I model's generative prior, reduces estimation errors, and further minimizes unintended inter-class associations. Extensive experiments across multiple T2I models, backbones, and datasets show that our method achieves state-of-the-art performance in low-shot fine-grained classification when augmented with synthetic data. Concretely, BOB outperforms DataDream by 7.4% on the Aircraft dataset (from 50.0% to 57.4% when fine-tuning a CLIP classifier with five real images augmented with 100 synthetic images). In three of the four benchmarks, fine-tuning downstream models with 5 real images augmented with BOB achieves better performance than fine-tuning with 10 real images. Collectively, BOB outperforms prior art in 18 of 24 experimental settings, with 2+% accuracy improvements in 14 of these settings.
PDF32February 7, 2026