O Que é Importante na Curadoria de Dados para o Raciocínio Multimodal? Perceções do Desafio DCVLR
What Matters in Data Curation for Multimodal Reasoning? Insights from the DCVLR Challenge
January 16, 2026
Autores: Yosub Shin, Michael Buriek, Boris Sobolev, Pavel Bushuyeu, Vikas Kumar, Haoyang Xu, Samuel Watson, Igor Molybog
cs.AI
Resumo
Estudamos a curadoria de dados para raciocínio multimodal por meio do desafio NeurIPS 2025 Data Curation for Vision-Language Reasoning (DCVLR), que isola a seleção de conjuntos de dados ao fixar o modelo e o protocolo de treinamento. Utilizando um conjunto de dados compacto e curado derivado principalmente do Walton Multimodal Cold Start, nossa submissão alcançou o primeiro lugar no desafio. Por meio de ablações pós-competição, demonstramos que a seleção de exemplos baseada em dificuldade em um conjunto de dados base alinhado é o principal fator responsável pelos ganhos de desempenho. O aumento do tamanho do conjunto de dados não melhora de forma confiável a precisão média sob a receita de treinamento fixa, mas principalmente reduz a variância entre execuções, enquanto heurísticas comumente utilizadas de diversidade e aumento sintético de dados não proporcionam benefícios adicionais e frequentemente degradam o desempenho. Esses resultados caracterizam o DCVLR como uma avaliação em regime de saturação e destacam o papel central do alinhamento e da dificuldade no raciocínio multimodal eficiente em termos de dados.
English
We study data curation for multimodal reasoning through the NeurIPS 2025 Data Curation for Vision-Language Reasoning (DCVLR) challenge, which isolates dataset selection by fixing the model and training protocol. Using a compact curated dataset derived primarily from Walton Multimodal Cold Start, our submission placed first in the challenge. Through post-competition ablations, we show that difficulty-based example selection on an aligned base dataset is the dominant driver of performance gains. Increasing dataset size does not reliably improve mean accuracy under the fixed training recipe, but mainly reduces run-to-run variance, while commonly used diversity and synthetic augmentation heuristics provide no additional benefit and often degrade performance. These results characterize DCVLR as a saturation-regime evaluation and highlight the central role of alignment and difficulty in data-efficient multimodal reasoning.