다중 모드 추론을 위한 데이터 큐레이션에서 중요한 것은 무엇인가? DCVLR 챌린지에서 얻은 통찰
What Matters in Data Curation for Multimodal Reasoning? Insights from the DCVLR Challenge
January 16, 2026
저자: Yosub Shin, Michael Buriek, Boris Sobolev, Pavel Bushuyeu, Vikas Kumar, Haoyang Xu, Samuel Watson, Igor Molybog
cs.AI
초록
우리는 모델과 학습 프로토콜을 고정하여 데이터셋 선택의 영향을 분리하여 평가하는 NeurIPS 2025 데이터 큐레이션 비전-언어 추론(DCVLR) 챌린지를 통해 다중모드 추론을 위한 데이터 큐레이션을 연구합니다. Walton Multimodal Cold Start를 주원천으로 한 소규모의 정제된 데이터셋을 사용한 우리의 제출작은 해당 챌린지에서 1위를 차지했습니다. 대회 후 수행한 Ablation 실험을 통해, 정렬된 기본 데이터셋에 대한 난이도 기반 예제 선택이 성능 향상의 주된 동인임을 보여줍니다. 고정된 학습 방법 아래에서는 데이터셋 크기를 늘려도 평균 정확도가 안정적으로 향상되지는 않으며, 주로 실행 간 변동성을 감소시키는 반면, 흔히 사용되는 다양성 및 합성 증강 휴리스틱은 추가 이점을 제공하지 않으며 오히려 성능을 저하시키는 경우가 많습니다. 이러한 결과는 DCVLR이 포화 국면 평가임을 규정하며, 데이터 효율적인 다중모드 추론에서 정렬과 난이도의 핵심적 역할을 부각시킵니다.
English
We study data curation for multimodal reasoning through the NeurIPS 2025 Data Curation for Vision-Language Reasoning (DCVLR) challenge, which isolates dataset selection by fixing the model and training protocol. Using a compact curated dataset derived primarily from Walton Multimodal Cold Start, our submission placed first in the challenge. Through post-competition ablations, we show that difficulty-based example selection on an aligned base dataset is the dominant driver of performance gains. Increasing dataset size does not reliably improve mean accuracy under the fixed training recipe, but mainly reduces run-to-run variance, while commonly used diversity and synthetic augmentation heuristics provide no additional benefit and often degrade performance. These results characterize DCVLR as a saturation-regime evaluation and highlight the central role of alignment and difficulty in data-efficient multimodal reasoning.