ChatPaper.aiChatPaper

¿Qué Importa en la Curación de Datos para el Razonamiento Multimodal? Perspectivas del Desafío DCVLR

What Matters in Data Curation for Multimodal Reasoning? Insights from the DCVLR Challenge

January 16, 2026
Autores: Yosub Shin, Michael Buriek, Boris Sobolev, Pavel Bushuyeu, Vikas Kumar, Haoyang Xu, Samuel Watson, Igor Molybog
cs.AI

Resumen

Estudiamos la curación de datos para razonamiento multimodal a través del desafío NeurIPS 2025 de Curación de Datos para Razonamiento Visión-Lenguaje (DCVLR), que aísla la selección del conjunto de datos fijando el modelo y el protocolo de entrenamiento. Utilizando un conjunto de datos compacto y curado derivado principalmente de Walton Multimodal Cold Start, nuestra presentación obtuvo el primer puesto en el desafío. Mediante ablaciones posteriores a la competencia, demostramos que la selección de ejemplos basada en dificultad sobre un conjunto de datos base alineado es el principal impulsor de las mejoras de rendimiento. Aumentar el tamaño del conjunto de datos no mejora de manera confiable la precisión media bajo la receta de entrenamiento fija, sino que principalmente reduce la varianza entre ejecuciones, mientras que las heurísticas de diversidad y aumento sintético comúnmente utilizadas no proporcionan beneficio adicional y a menudo degradan el rendimiento. Estos resultados caracterizan a DCVLR como una evaluación en régimen de saturación y destacan el papel central de la alineación y la dificultad en el razonamiento multimodal eficiente en datos.
English
We study data curation for multimodal reasoning through the NeurIPS 2025 Data Curation for Vision-Language Reasoning (DCVLR) challenge, which isolates dataset selection by fixing the model and training protocol. Using a compact curated dataset derived primarily from Walton Multimodal Cold Start, our submission placed first in the challenge. Through post-competition ablations, we show that difficulty-based example selection on an aligned base dataset is the dominant driver of performance gains. Increasing dataset size does not reliably improve mean accuracy under the fixed training recipe, but mainly reduces run-to-run variance, while commonly used diversity and synthetic augmentation heuristics provide no additional benefit and often degrade performance. These results characterize DCVLR as a saturation-regime evaluation and highlight the central role of alignment and difficulty in data-efficient multimodal reasoning.
PDF11January 20, 2026