ChatPaper.aiChatPaper

Что важно при курации данных для мультимодальных рассуждений? Инсайты из соревнования DCVLR

What Matters in Data Curation for Multimodal Reasoning? Insights from the DCVLR Challenge

January 16, 2026
Авторы: Yosub Shin, Michael Buriek, Boris Sobolev, Pavel Bushuyeu, Vikas Kumar, Haoyang Xu, Samuel Watson, Igor Molybog
cs.AI

Аннотация

Мы исследуем курацию данных для мультимодальных систем рассуждений в рамках конкурса NeurIPS 2025 Data Curation for Vision-Language Reasoning (DCVLR), который изолирует проблему выбора набора данных, фиксируя модель и протокол обучения. Используя компактный курируемый набор данных, созданный в основном на основе Walton Multimodal Cold Start, наша заявка заняла первое место в конкурсе. Последующие абляционные исследования показывают, что выбор примеров на основе сложности в выровненном базовом наборе данных является основным фактором повышения производительности. Увеличение размера набора данных не приводит к надежному улучшению средней точности при фиксированном рецепте обучения, а в основном снижает дисперсию между запусками, тогда как широко используемые эвристики разнообразия и синтетического дополнения данных не дают дополнительного преимущества и часто ухудшают производительность. Эти результаты характеризуют DCVLR как оценку в режиме насыщения и подчеркивают центральную роль выравнивания и сложности данных в ресурсоэффективных мультимодальных рассуждениях.
English
We study data curation for multimodal reasoning through the NeurIPS 2025 Data Curation for Vision-Language Reasoning (DCVLR) challenge, which isolates dataset selection by fixing the model and training protocol. Using a compact curated dataset derived primarily from Walton Multimodal Cold Start, our submission placed first in the challenge. Through post-competition ablations, we show that difficulty-based example selection on an aligned base dataset is the dominant driver of performance gains. Increasing dataset size does not reliably improve mean accuracy under the fixed training recipe, but mainly reduces run-to-run variance, while commonly used diversity and synthetic augmentation heuristics provide no additional benefit and often degrade performance. These results characterize DCVLR as a saturation-regime evaluation and highlight the central role of alignment and difficulty in data-efficient multimodal reasoning.
PDF11January 20, 2026