ChatPaper.aiChatPaper

概念認識型バッチサンプリングによる言語画像事前学習の改善

Concept-Aware Batch Sampling Improves Language-Image Pretraining

November 25, 2025
著者: Adhiraj Ghosh, Vishaal Udandarao, Thao Nguyen, Matteo Farina, Mehdi Cherti, Jenia Jitsev, Sewoong Oh, Elisa Ricci, Ludwig Schmidt, Matthias Bethge
cs.AI

要旨

視覚言語モデルはどのようなデータで学習すべきか?この問いに答えるため、多くのデータキュレーション手法はデータセットの品質に焦点を当てている。しかし、既存手法のほとんどは (i) オフライン的、すなわち事前に決められたフィルタリング基準に基づいて静的なデータセットを構築するものであり、(ii) 概念非依存的な、すなわちモデルベースのフィルタを用いることで追加的なデータバイアスを生み出すものである。本研究では、このようなオフライン的で概念非依存的な手法を超えて、より柔軟でタスク適応型の、概念に基づくオンラインキュレーションを提唱する。我々の第一の貢献は、その概念構成に関する細粒度の詳細が注釈された、128Mのウェブクロール画像-テキストペアからなるコレクションであるDataConceptである。DataConceptに基づき、我々は特定の目標分布に基づいて柔軟にバッチを動的に構築する、シンプルかつ効果的なバッチサンプリングフレームワークであるConcept-Aware Batch Sampling (CABS) を提案する。2つのバリアントを提案する:(i) 利用可能な概念の広範なカバレッジを持つバッチを精選する多様性最大化 (CABS-DM) と、(ii) 高いオブジェクト多重度を持つバッチを精選する頻度最大化 (CABS-FM) である。28のベンチマークにわたる広範な評価を通じて、我々のCABS手法がCLIP/SigLIPモデルクラスに大きな利益をもたらし、高性能なモデルを生成することを実証する。全体として、CABSはプロプライエタリなオンラインデータキュレーションアルゴリズムに対する強力なオープンソースの代替手段であり、実践者が特定のダウンストリームタスクを最適化するカスタム概念分布を定義することを可能にする。
English
What data should a vision-language model be trained on? To answer this question, many data curation efforts center on the quality of a dataset. However, most of these existing methods are (i) offline, i.e. they produce a static dataset from a set of predetermined filtering criteria, and (ii) concept-agnostic, i.e. they use model-based filters which induce additional data biases. In this work, we go beyond such offline, concept-agnostic methods and advocate for more flexible, task-adaptive online concept-based curation. Our first contribution is DataConcept, a collection of 128M web-crawled image-text pairs annotated with fine-grained details about their concept composition. Building on DataConcept, we introduce Concept-Aware Batch Sampling (CABS), a simple yet effective batch sampling framework that flexibly constructs batches on-the-fly based on specific target distributions. We propose two variants: (i) Diversity Maximization (CABS-DM) to curate batches with a broad coverage of available concepts, and (ii) Frequency Maximization (CABS-FM) to curate batches with high object multiplicity. Through extensive evaluations across 28 benchmarks, we demonstrate that our CABS method significantly benefits CLIP/SigLIP model classes and yields highly performant models. Overall, CABS represents a strong open-source alternative to proprietary online data curation algorithms, enabling practitioners to define custom concept distributions that optimize for specific downstream tasks.
PDF12December 1, 2025