ChatPaper.aiChatPaper

Концептуально-ориентированное пакетное семплирование улучшает предобучение моделей «язык-изображение»

Concept-Aware Batch Sampling Improves Language-Image Pretraining

November 25, 2025
Авторы: Adhiraj Ghosh, Vishaal Udandarao, Thao Nguyen, Matteo Farina, Mehdi Cherti, Jenia Jitsev, Sewoong Oh, Elisa Ricci, Ludwig Schmidt, Matthias Bethge
cs.AI

Аннотация

На каких данных следует обучать визуально-языковые модели? Чтобы ответить на этот вопрос, многие усилия по курации данных сосредоточены на качестве набора данных. Однако большинство существующих методов являются (i) офлайн-методами, то есть создают статический набор данных на основе заранее определенных критериев фильтрации, и (ii) концептуально-агностическими, то есть используют фильтры на основе моделей, которые вносят дополнительные смещения в данные. В данной работе мы выходим за рамки таких офлайн-методов, не учитывающих концепты, и предлагаем более гибкую, адаптивную к задаче онлайн-курацию на основе концептов. Наш первый вклад — DataConcept, коллекция из 128 миллионов пар «изображение-текст», собранных из интернета и размеченных с детальной информацией об их концептуальном составе. На основе DataConcept мы представляем Concept-Aware Batch Sampling (CABS) — простую, но эффективную систему пакетной выборки, которая гибко формирует пакеты на лету в соответствии с заданными целевыми распределениями. Мы предлагаем два варианта: (i) максимизацию разнообразия (CABS-DM) для формирования пакетов с широким охватом доступных концептов и (ii) максимизацию частоты (CABS-FM) для формирования пакетов с высокой множественностью объектов. В ходе всесторонней оценки на 28 бенчмарках мы демонстрируем, что наш метод CABS значительно улучшает модели классов CLIP/SigLIP и позволяет получать высокопроизводительные модели. В целом, CABS представляет собой мощную открытую альтернативу проприетарным алгоритмам онлайн-курации данных, позволяя специалистам определять пользовательские распределения концептов для оптимизации под конкретные прикладные задачи.
English
What data should a vision-language model be trained on? To answer this question, many data curation efforts center on the quality of a dataset. However, most of these existing methods are (i) offline, i.e. they produce a static dataset from a set of predetermined filtering criteria, and (ii) concept-agnostic, i.e. they use model-based filters which induce additional data biases. In this work, we go beyond such offline, concept-agnostic methods and advocate for more flexible, task-adaptive online concept-based curation. Our first contribution is DataConcept, a collection of 128M web-crawled image-text pairs annotated with fine-grained details about their concept composition. Building on DataConcept, we introduce Concept-Aware Batch Sampling (CABS), a simple yet effective batch sampling framework that flexibly constructs batches on-the-fly based on specific target distributions. We propose two variants: (i) Diversity Maximization (CABS-DM) to curate batches with a broad coverage of available concepts, and (ii) Frequency Maximization (CABS-FM) to curate batches with high object multiplicity. Through extensive evaluations across 28 benchmarks, we demonstrate that our CABS method significantly benefits CLIP/SigLIP model classes and yields highly performant models. Overall, CABS represents a strong open-source alternative to proprietary online data curation algorithms, enabling practitioners to define custom concept distributions that optimize for specific downstream tasks.
PDF12December 1, 2025