ChatPaper.aiChatPaper

개념 인식 배치 샘플링이 언어-이미지 사전 학습 성능을 향상

Concept-Aware Batch Sampling Improves Language-Image Pretraining

November 25, 2025
저자: Adhiraj Ghosh, Vishaal Udandarao, Thao Nguyen, Matteo Farina, Mehdi Cherti, Jenia Jitsev, Sewoong Oh, Elisa Ricci, Ludwig Schmidt, Matthias Bethge
cs.AI

초록

비전-언어 모델은 어떤 데이터로 훈련해야 할까? 이 질문에 답하기 위해 많은 데이터 선별 작업은 데이터셋의 품질에 중점을 둡니다. 그러나 기존 방법 대부분은 (i) 오프라인 방식, 즉 미리 정해진 필터링 기준 세트로부터 정적 데이터셋을 생성하며, (ii) 개념 인식이 불가능한 방식, 즉 추가적인 데이터 편향을 유발하는 모델 기반 필터를 사용합니다. 본 연구에서는 이러한 오프라인적이고 개념 인식이 불가능한 방법을 넘어 더 유연하고 작업 적응형인 온라인 개념 기반 선별을 주장합니다. 우리의 첫 번째 기여는 개념 구성에 대한 세부적인 정보가 주석으로 달린 128M개의 웹 기반 이미지-텍스트 쌍 컬렉션인 DataConcept입니다. DataConcept를 기반으로 우리는 특정 목표 분포에 따라 즉시 배치를 유연하게 구성하는 간단하면서 효과적인 배치 샘플링 프레임워크인 개념 인식 배치 샘플링(CABS)을 소개합니다. 우리는 두 가지 변형을 제안합니다: (i) 사용 가능한 개념을 광범위하게 포괄하는 배치를 선별하는 다양성 극대화(CABS-DM)와 (ii) 높은 객체 중복도를 가진 배치를 선별하는 빈도 극대화(CABS-FM). 28개 벤치마크에 걸친 광범위한 평가를 통해 우리의 CABS 방법이 CLIP/SigLIP 모델 클래스에 상당한 이점을 제공하며 매우 높은 성능의 모델을 생성함을 입증합니다. 전반적으로 CABS는 독점적인 온라인 데이터 선별 알고리즘에 대한 강력한 오픈소스 대안을 제시하며, 실무자가 특정 다운스트림 작업에 최적화된 사용자 정의 개념 분포를 정의할 수 있게 합니다.
English
What data should a vision-language model be trained on? To answer this question, many data curation efforts center on the quality of a dataset. However, most of these existing methods are (i) offline, i.e. they produce a static dataset from a set of predetermined filtering criteria, and (ii) concept-agnostic, i.e. they use model-based filters which induce additional data biases. In this work, we go beyond such offline, concept-agnostic methods and advocate for more flexible, task-adaptive online concept-based curation. Our first contribution is DataConcept, a collection of 128M web-crawled image-text pairs annotated with fine-grained details about their concept composition. Building on DataConcept, we introduce Concept-Aware Batch Sampling (CABS), a simple yet effective batch sampling framework that flexibly constructs batches on-the-fly based on specific target distributions. We propose two variants: (i) Diversity Maximization (CABS-DM) to curate batches with a broad coverage of available concepts, and (ii) Frequency Maximization (CABS-FM) to curate batches with high object multiplicity. Through extensive evaluations across 28 benchmarks, we demonstrate that our CABS method significantly benefits CLIP/SigLIP model classes and yields highly performant models. Overall, CABS represents a strong open-source alternative to proprietary online data curation algorithms, enabling practitioners to define custom concept distributions that optimize for specific downstream tasks.
PDF12December 1, 2025