ChatPaper.aiChatPaper

L'échantillonnage par lots sensible aux concepts améliore le pré-entraînement langage-image

Concept-Aware Batch Sampling Improves Language-Image Pretraining

November 25, 2025
papers.authors: Adhiraj Ghosh, Vishaal Udandarao, Thao Nguyen, Matteo Farina, Mehdi Cherti, Jenia Jitsev, Sewoong Oh, Elisa Ricci, Ludwig Schmidt, Matthias Bethge
cs.AI

papers.abstract

Sur quelles données un modèle vision-langage devrait-il être entraîné ? Pour répondre à cette question, de nombreux efforts de curation de données se concentrent sur la qualité d'un jeu de données. Cependant, la plupart de ces méthodes existantes sont (i) hors ligne, c'est-à-dire qu'elles produisent un jeu de données statique à partir d'un ensemble de critères de filtrage prédéfinis, et (ii) agnostiques au concept, c'est-à-dire qu'elles utilisent des filtres basés sur des modèles qui induisent des biais supplémentaires dans les données. Dans ce travail, nous dépassons ces méthodes hors ligne et agnostiques au concept et préconisons une curation en ligne basée sur les concepts, plus flexible et adaptative aux tâches. Notre première contribution est DataConcept, une collection de 128 millions de paires image-texte extraites du web, annotées avec des détails fins sur leur composition conceptuelle. En nous appuyant sur DataConcept, nous introduisons l'Échantillonnage par Lots Conscient des Concepts (Concept-Aware Batch Sampling - CABS), un cadre d'échantillonnage par lots simple mais efficace qui construit des lots de manière flexible à la volée en fonction de distributions cibles spécifiques. Nous proposons deux variantes : (i) la Maximisation de la Diversité (CABS-DM) pour constituer des lots couvrant largement les concepts disponibles, et (ii) la Maximisation de la Fréquence (CABS-FM) pour constituer deslots avec une forte multiplicité d'objets. Grâce à des évaluations approfondies sur 28 benchmarks, nous démontrons que notre méthode CABS profite significativement aux classes de modèles CLIP/SigLIP et produit des modèles très performants. Globalement, CABS représente une alternative open-source solide aux algorithmes propriétaires de curation de données en ligne, permettant aux praticiens de définir des distributions conceptuelles personnalisées qui optimisent les performances pour des tâches en aval spécifiques.
English
What data should a vision-language model be trained on? To answer this question, many data curation efforts center on the quality of a dataset. However, most of these existing methods are (i) offline, i.e. they produce a static dataset from a set of predetermined filtering criteria, and (ii) concept-agnostic, i.e. they use model-based filters which induce additional data biases. In this work, we go beyond such offline, concept-agnostic methods and advocate for more flexible, task-adaptive online concept-based curation. Our first contribution is DataConcept, a collection of 128M web-crawled image-text pairs annotated with fine-grained details about their concept composition. Building on DataConcept, we introduce Concept-Aware Batch Sampling (CABS), a simple yet effective batch sampling framework that flexibly constructs batches on-the-fly based on specific target distributions. We propose two variants: (i) Diversity Maximization (CABS-DM) to curate batches with a broad coverage of available concepts, and (ii) Frequency Maximization (CABS-FM) to curate batches with high object multiplicity. Through extensive evaluations across 28 benchmarks, we demonstrate that our CABS method significantly benefits CLIP/SigLIP model classes and yields highly performant models. Overall, CABS represents a strong open-source alternative to proprietary online data curation algorithms, enabling practitioners to define custom concept distributions that optimize for specific downstream tasks.
PDF12December 1, 2025