ChatPaper.aiChatPaper

Conceptueel Bewuste Batchsampling Verbeterd Taal-Beeld Vooraf Trainen

Concept-Aware Batch Sampling Improves Language-Image Pretraining

November 25, 2025
Auteurs: Adhiraj Ghosh, Vishaal Udandarao, Thao Nguyen, Matteo Farina, Mehdi Cherti, Jenia Jitsev, Sewoong Oh, Elisa Ricci, Ludwig Schmidt, Matthias Bethge
cs.AI

Samenvatting

Waarop moet een vision-language model getraind worden? Om deze vraag te beantwoorden, richten veel data-curatie-inspanningen zich op de kwaliteit van een dataset. De meeste bestaande methoden zijn echter (i) offline, dat wil zeggen, ze produceren een statische dataset op basis van een reeks vooraf bepaalde filtercriteria, en (ii) concept-agnostisch, dat wil zeggen, ze gebruiken modelgebaseerde filters die extra datavooroordelen introduceren. In dit werk gaan we verder dan dergelijke offline, concept-agnostische methoden en pleiten we voor een flexibelere, taakadaptieve online curatie op basis van concepten. Onze eerste bijdrage is DataConcept, een verzameling van 128 miljoen webgecrawlde afbeelding-tekst-paren geannoteerd met fijnmazige details over hun concept-samenstelling. Voortbordurend op DataConcept, introduceren we Concept-Aware Batch Sampling (CABS), een eenvoudig maar effectief batchsamplingsraamwerk dat flexibel batches samenstelt op basis van specifieke doeldistributies. We stellen twee varianten voor: (i) Diversiteitsmaximalisatie (CABS-DM) om batches samen te stellen met een brede dekking van beschikbare concepten, en (ii) Frequentiemaximalisatie (CABS-FM) om batches samen te stellen met een hoge objectmultipliciteit. Door middel van uitgebreide evaluaties over 28 benchmarks tonen we aan dat onze CABS-methode significante voordelen biedt voor CLIP/SigLIP-modelklassen en zeer presterende modellen oplevert. Over het algemeen vertegenwoordigt CABS een sterke open-source-alternatief voor propriëtaire online data-curatie-algoritmen, waardoor gebruikers aangepaste conceptdistributies kunnen definiëren die geoptimaliseerd zijn voor specifieke downstreamtaken.
English
What data should a vision-language model be trained on? To answer this question, many data curation efforts center on the quality of a dataset. However, most of these existing methods are (i) offline, i.e. they produce a static dataset from a set of predetermined filtering criteria, and (ii) concept-agnostic, i.e. they use model-based filters which induce additional data biases. In this work, we go beyond such offline, concept-agnostic methods and advocate for more flexible, task-adaptive online concept-based curation. Our first contribution is DataConcept, a collection of 128M web-crawled image-text pairs annotated with fine-grained details about their concept composition. Building on DataConcept, we introduce Concept-Aware Batch Sampling (CABS), a simple yet effective batch sampling framework that flexibly constructs batches on-the-fly based on specific target distributions. We propose two variants: (i) Diversity Maximization (CABS-DM) to curate batches with a broad coverage of available concepts, and (ii) Frequency Maximization (CABS-FM) to curate batches with high object multiplicity. Through extensive evaluations across 28 benchmarks, we demonstrate that our CABS method significantly benefits CLIP/SigLIP model classes and yields highly performant models. Overall, CABS represents a strong open-source alternative to proprietary online data curation algorithms, enabling practitioners to define custom concept distributions that optimize for specific downstream tasks.
PDF12December 1, 2025