ChatPaper.aiChatPaper

El Muestreo por Lotes Consciente de Conceptos Mejora el Preentrenamiento de Lenguaje e Imagen

Concept-Aware Batch Sampling Improves Language-Image Pretraining

November 25, 2025
Autores: Adhiraj Ghosh, Vishaal Udandarao, Thao Nguyen, Matteo Farina, Mehdi Cherti, Jenia Jitsev, Sewoong Oh, Elisa Ricci, Ludwig Schmidt, Matthias Bethge
cs.AI

Resumen

¿En qué datos debe entrenarse un modelo de visión y lenguaje? Para responder a esta pregunta, muchos esfuerzos de curación de datos se centran en la calidad de un conjunto de datos. Sin embargo, la mayoría de estos métodos existentes son (i) estáticos, es decir, producen un conjunto de datos fijo a partir de un conjunto de criterios de filtrado predeterminados, y (ii) agnósticos al concepto, es decir, utilizan filtros basados en modelos que inducen sesgos de datos adicionales. En este trabajo, vamos más allá de estos métodos estáticos y agnósticos al concepto y abogamos por una curación basada en conceptos, más flexible y adaptable a la tarea, en línea. Nuestra primera contribución es DataConcept, una colección de 128 millones de pares de imagen-texto obtenidos de la web, anotados con detalles granulares sobre su composición conceptual. Basándonos en DataConcept, presentamos Concept-Aware Batch Sampling (CABS), un marco de muestreo por lotes simple pero efectivo que construye lotes de manera flexible sobre la marcha basándose en distribuciones objetivo específicas. Proponemos dos variantes: (i) Maximización de la Diversidad (CABS-DM) para curar lotes con una amplia cobertura de conceptos disponibles, y (ii) Maximización de la Frecuencia (CABS-FM) para curar lotes con alta multiplicidad de objetos. Mediante evaluaciones exhaustivas en 28 puntos de referencia, demostramos que nuestro método CABS beneficia significativamente a las clases de modelos CLIP/SigLIP y produce modelos de alto rendimiento. En general, CABS representa una alternativa de código abierto sólida a los algoritmos de curación de datos en línea propietarios, permitiendo a los profesionales definir distribuciones conceptuales personalizadas que optimicen para tareas específicas posteriores.
English
What data should a vision-language model be trained on? To answer this question, many data curation efforts center on the quality of a dataset. However, most of these existing methods are (i) offline, i.e. they produce a static dataset from a set of predetermined filtering criteria, and (ii) concept-agnostic, i.e. they use model-based filters which induce additional data biases. In this work, we go beyond such offline, concept-agnostic methods and advocate for more flexible, task-adaptive online concept-based curation. Our first contribution is DataConcept, a collection of 128M web-crawled image-text pairs annotated with fine-grained details about their concept composition. Building on DataConcept, we introduce Concept-Aware Batch Sampling (CABS), a simple yet effective batch sampling framework that flexibly constructs batches on-the-fly based on specific target distributions. We propose two variants: (i) Diversity Maximization (CABS-DM) to curate batches with a broad coverage of available concepts, and (ii) Frequency Maximization (CABS-FM) to curate batches with high object multiplicity. Through extensive evaluations across 28 benchmarks, we demonstrate that our CABS method significantly benefits CLIP/SigLIP model classes and yields highly performant models. Overall, CABS represents a strong open-source alternative to proprietary online data curation algorithms, enabling practitioners to define custom concept distributions that optimize for specific downstream tasks.
PDF12December 1, 2025