Amostragem de Lotes com Consciência de Conceito Melhora o Pré-treinamento de Linguagem e Imagem

Resumo

Que dados devem ser usados para treinar um modelo visão-linguagem? Para responder a esta questão, muitos esforços de curadoria de dados centram-se na qualidade de um conjunto de dados. No entanto, a maioria destes métodos existentes são (i) *offline*, ou seja, produzem um conjunto de dados estático a partir de um conjunto de critérios de filtragem predeterminados, e (ii) *agnósticos em relação a conceitos*, ou seja, utilizam filtros baseados em modelos que induzem vieses adicionais nos dados. Neste trabalho, vamos além destes métodos *offline* e agnósticos em relação a conceitos, defendendo uma curadoria *online* baseada em conceitos, mais flexível e adaptativa à tarefa. A nossa primeira contribuição é o DataConcept, uma coleção de 128 milhões de pares imagem-texto extraídos da web, anotados com detalhes refinados sobre a sua composição conceptual. Com base no DataConcept, introduzimos a Amostragem de Lotes com Consciência Conceptual (CABS), uma estrutura de amostragem de lotes simples mas eficaz que constrói lotes de forma dinâmica com base em distribuições-alvo específicas. Propomos duas variantes: (i) Maximização da Diversidade (CABS-DM) para criar lotes com uma ampla cobertura de conceitos disponíveis, e (ii) Maximização da Frequência (CABS-FM) para criar lotes com alta multiplicidade de objetos. Através de avaliações extensas em 28 *benchmarks*, demonstramos que o nosso método CABS beneficia significativamente as classes de modelos CLIP/SigLIP e produz modelos de alto desempenho. No geral, o CABS representa uma alternativa de código aberto robusta aos algoritmos proprietários de curadoria de dados *online*, permitindo que os profissionais definam distribuições conceptuais personalizadas que otimizem tarefas específicas a jusante.

English

What data should a vision-language model be trained on? To answer this question, many data curation efforts center on the quality of a dataset. However, most of these existing methods are (i) offline, i.e. they produce a static dataset from a set of predetermined filtering criteria, and (ii) concept-agnostic, i.e. they use model-based filters which induce additional data biases. In this work, we go beyond such offline, concept-agnostic methods and advocate for more flexible, task-adaptive online concept-based curation. Our first contribution is DataConcept, a collection of 128M web-crawled image-text pairs annotated with fine-grained details about their concept composition. Building on DataConcept, we introduce Concept-Aware Batch Sampling (CABS), a simple yet effective batch sampling framework that flexibly constructs batches on-the-fly based on specific target distributions. We propose two variants: (i) Diversity Maximization (CABS-DM) to curate batches with a broad coverage of available concepts, and (ii) Frequency Maximization (CABS-FM) to curate batches with high object multiplicity. Through extensive evaluations across 28 benchmarks, we demonstrate that our CABS method significantly benefits CLIP/SigLIP model classes and yields highly performant models. Overall, CABS represents a strong open-source alternative to proprietary online data curation algorithms, enabling practitioners to define custom concept distributions that optimize for specific downstream tasks.

Amostragem de Lotes com Consciência de Conceito Melhora o Pré-treinamento de Linguagem e Imagem

Concept-Aware Batch Sampling Improves Language-Image Pretraining

Resumo

Support