Konzeptbewusstes Stapelsampling verbessert Sprach-Bild-Vortraining
Concept-Aware Batch Sampling Improves Language-Image Pretraining
November 25, 2025
papers.authors: Adhiraj Ghosh, Vishaal Udandarao, Thao Nguyen, Matteo Farina, Mehdi Cherti, Jenia Jitsev, Sewoong Oh, Elisa Ricci, Ludwig Schmidt, Matthias Bethge
cs.AI
papers.abstract
Welche Daten sollten ein Vision-Sprache-Modell trainieren? Um diese Frage zu beantworten, konzentrieren sich viele Datenkuratierungsbemühungen auf die Qualität eines Datensatzes. Die meisten dieser bestehenden Methoden sind jedoch (i) offline, d.h. sie erstellen einen statischen Datensatz aus einem Satz vordefinierter Filterkriterien, und (ii) konzeptagnostisch, d.h. sie verwenden modellbasierte Filter, die zusätzliche Datenverzerrungen verursachen. In dieser Arbeit gehen wir über solche offline, konzeptagnostischen Methoden hinaus und plädieren für eine flexiblere, aufgabenadaptive Online-Kuratierung auf Konzeptbasis. Unser erster Beitrag ist DataConcept, eine Sammlung von 128M aus dem Web gecrawlten Bild-Text-Paaren, die mit feingranularen Details zu ihrer Konzeptzusammensetzung annotiert sind. Aufbauend auf DataConcept stellen wir Concept-Aware Batch Sampling (CABS) vor, ein einfaches, aber effektives Batch-Sampling-Framework, das Batches flexibel und dynamisch basierend auf spezifischen Zielverteilungen konstruiert. Wir schlagen zwei Varianten vor: (i) Diversity Maximization (CABS-DM), um Batches mit einer breiten Abdeckung verfügbarer Konzepte zu kuratieren, und (ii) Frequency Maximization (CABS-FM), um Batches mit hoher Objektvielfalt zu kuratieren. Durch umfangreiche Evaluierungen über 28 Benchmarks hinweg zeigen wir, dass unsere CABS-Methode die CLIP/SigLIP-Modellklassen erheblich begünstigt und hochleistungsfähige Modelle hervorbringt. Insgesamt stellt CABS eine starke Open-Source-Alternative zu proprietären Online-Datenkuratierungsalgorithmen dar, die es Anwendern ermöglicht, benutzerdefinierte Konzeptverteilungen zu definieren, die für bestimmte Downstream-Aufgaben optimiert sind.
English
What data should a vision-language model be trained on? To answer this question, many data curation efforts center on the quality of a dataset. However, most of these existing methods are (i) offline, i.e. they produce a static dataset from a set of predetermined filtering criteria, and (ii) concept-agnostic, i.e. they use model-based filters which induce additional data biases. In this work, we go beyond such offline, concept-agnostic methods and advocate for more flexible, task-adaptive online concept-based curation. Our first contribution is DataConcept, a collection of 128M web-crawled image-text pairs annotated with fine-grained details about their concept composition. Building on DataConcept, we introduce Concept-Aware Batch Sampling (CABS), a simple yet effective batch sampling framework that flexibly constructs batches on-the-fly based on specific target distributions. We propose two variants: (i) Diversity Maximization (CABS-DM) to curate batches with a broad coverage of available concepts, and (ii) Frequency Maximization (CABS-FM) to curate batches with high object multiplicity. Through extensive evaluations across 28 benchmarks, we demonstrate that our CABS method significantly benefits CLIP/SigLIP model classes and yields highly performant models. Overall, CABS represents a strong open-source alternative to proprietary online data curation algorithms, enabling practitioners to define custom concept distributions that optimize for specific downstream tasks.