ChatPaper.aiChatPaper

Il Campionamento di Batch Consapevole del Concetto Migliora l'Addestramento Preliminare Linguaggio-Immagine

Concept-Aware Batch Sampling Improves Language-Image Pretraining

November 25, 2025
Autori: Adhiraj Ghosh, Vishaal Udandarao, Thao Nguyen, Matteo Farina, Mehdi Cherti, Jenia Jitsev, Sewoong Oh, Elisa Ricci, Ludwig Schmidt, Matthias Bethge
cs.AI

Abstract

Su quali dati dovrebbe essere addestrato un modello visione-linguaggio? Per rispondere a questa domanda, molti sforzi di curatela dei dati si concentrano sulla qualità di un dataset. Tuttavia, la maggior parte di questi metodi esistenti sono (i) offline, cioè producono un dataset statico da un insieme di criteri di filtraggio predeterminati, e (ii) agnostici rispetto al concetto, cioè utilizzano filtri basati su modelli che inducono ulteriori distorsioni nei dati. In questo lavoro, andiamo oltre tali metodi offline e agnostici, e sosteniamo una curatela online basata sui concetti, più flessibile e adattiva al compito. Il nostro primo contributo è DataConcept, una collezione di 128 milioni di coppie immagine-testo estratte dal web, annotate con dettagli granulari sulla loro composizione concettuale. Basandoci su DataConcept, introduciamo il Campionamento a Lotto Consapevole del Concetto (Concept-Aware Batch Sampling - CABS), un framework di campionamento a lotto semplice ma efficace che costruisce flessibilmente i lotti al volo in base a distribuzioni target specifiche. Proponiamo due varianti: (i) Massimizzazione della Diversità (CABS-DM) per curare lotti con un'ampia copertura dei concetti disponibili, e (ii) Massimizzazione della Frequenza (CABS-FM) per curare lotti con un'elevata molteplicità di oggetti. Attraverso valutazioni estensive su 28 benchmark, dimostriamo che il nostro metodo CABS apporta significativi benefici alle classi di modelli CLIP/SigLIP e produce modelli dalle prestazioni elevate. Nel complesso, CABS rappresenta una valida alternativa open-source agli algoritmi proprietari di curatela dati online, consentendo ai professionisti di definire distribuzioni concettuali personalizzate che ottimizzano per specifici compiti downstream.
English
What data should a vision-language model be trained on? To answer this question, many data curation efforts center on the quality of a dataset. However, most of these existing methods are (i) offline, i.e. they produce a static dataset from a set of predetermined filtering criteria, and (ii) concept-agnostic, i.e. they use model-based filters which induce additional data biases. In this work, we go beyond such offline, concept-agnostic methods and advocate for more flexible, task-adaptive online concept-based curation. Our first contribution is DataConcept, a collection of 128M web-crawled image-text pairs annotated with fine-grained details about their concept composition. Building on DataConcept, we introduce Concept-Aware Batch Sampling (CABS), a simple yet effective batch sampling framework that flexibly constructs batches on-the-fly based on specific target distributions. We propose two variants: (i) Diversity Maximization (CABS-DM) to curate batches with a broad coverage of available concepts, and (ii) Frequency Maximization (CABS-FM) to curate batches with high object multiplicity. Through extensive evaluations across 28 benchmarks, we demonstrate that our CABS method significantly benefits CLIP/SigLIP model classes and yields highly performant models. Overall, CABS represents a strong open-source alternative to proprietary online data curation algorithms, enabling practitioners to define custom concept distributions that optimize for specific downstream tasks.
PDF12December 1, 2025