ChatPaper.aiChatPaper

Amostragem de Lotes com Consciência de Conceito Melhora o Pré-treinamento de Linguagem e Imagem

Concept-Aware Batch Sampling Improves Language-Image Pretraining

November 25, 2025
Autores: Adhiraj Ghosh, Vishaal Udandarao, Thao Nguyen, Matteo Farina, Mehdi Cherti, Jenia Jitsev, Sewoong Oh, Elisa Ricci, Ludwig Schmidt, Matthias Bethge
cs.AI

Resumo

Que dados devem ser usados para treinar um modelo visão-linguagem? Para responder a esta questão, muitos esforços de curadoria de dados centram-se na qualidade de um conjunto de dados. No entanto, a maioria destes métodos existentes são (i) *offline*, ou seja, produzem um conjunto de dados estático a partir de um conjunto de critérios de filtragem predeterminados, e (ii) *agnósticos em relação a conceitos*, ou seja, utilizam filtros baseados em modelos que induzem vieses adicionais nos dados. Neste trabalho, vamos além destes métodos *offline* e agnósticos em relação a conceitos, defendendo uma curadoria *online* baseada em conceitos, mais flexível e adaptativa à tarefa. A nossa primeira contribuição é o DataConcept, uma coleção de 128 milhões de pares imagem-texto extraídos da web, anotados com detalhes refinados sobre a sua composição conceptual. Com base no DataConcept, introduzimos a Amostragem de Lotes com Consciência Conceptual (CABS), uma estrutura de amostragem de lotes simples mas eficaz que constrói lotes de forma dinâmica com base em distribuições-alvo específicas. Propomos duas variantes: (i) Maximização da Diversidade (CABS-DM) para criar lotes com uma ampla cobertura de conceitos disponíveis, e (ii) Maximização da Frequência (CABS-FM) para criar lotes com alta multiplicidade de objetos. Através de avaliações extensas em 28 *benchmarks*, demonstramos que o nosso método CABS beneficia significativamente as classes de modelos CLIP/SigLIP e produz modelos de alto desempenho. No geral, o CABS representa uma alternativa de código aberto robusta aos algoritmos proprietários de curadoria de dados *online*, permitindo que os profissionais definam distribuições conceptuais personalizadas que otimizem tarefas específicas a jusante.
English
What data should a vision-language model be trained on? To answer this question, many data curation efforts center on the quality of a dataset. However, most of these existing methods are (i) offline, i.e. they produce a static dataset from a set of predetermined filtering criteria, and (ii) concept-agnostic, i.e. they use model-based filters which induce additional data biases. In this work, we go beyond such offline, concept-agnostic methods and advocate for more flexible, task-adaptive online concept-based curation. Our first contribution is DataConcept, a collection of 128M web-crawled image-text pairs annotated with fine-grained details about their concept composition. Building on DataConcept, we introduce Concept-Aware Batch Sampling (CABS), a simple yet effective batch sampling framework that flexibly constructs batches on-the-fly based on specific target distributions. We propose two variants: (i) Diversity Maximization (CABS-DM) to curate batches with a broad coverage of available concepts, and (ii) Frequency Maximization (CABS-FM) to curate batches with high object multiplicity. Through extensive evaluations across 28 benchmarks, we demonstrate that our CABS method significantly benefits CLIP/SigLIP model classes and yields highly performant models. Overall, CABS represents a strong open-source alternative to proprietary online data curation algorithms, enabling practitioners to define custom concept distributions that optimize for specific downstream tasks.
PDF32March 24, 2026