Qu'est-ce qui compte dans la curation des données pour le raisonnement multimodal ? Éclairages du défi DCVLR
What Matters in Data Curation for Multimodal Reasoning? Insights from the DCVLR Challenge
January 16, 2026
papers.authors: Yosub Shin, Michael Buriek, Boris Sobolev, Pavel Bushuyeu, Vikas Kumar, Haoyang Xu, Samuel Watson, Igor Molybog
cs.AI
papers.abstract
Nous étudions la curation de données pour le raisonnement multimodal à travers le défi DCVLR (Data Curation for Vision-Language Reasoning) de NeurIPS 2025, qui isole la sélection du jeu de données en fixant le modèle et le protocole d'entraînement. En utilisant un jeu de données compact, principalement dérivé de Walton Multimodal Cold Start, notre soumission s'est classée première au concours. Grâce à des ablations post-compétition, nous montrons que la sélection d'exemples basée sur la difficulté à partir d'un jeu de données de base aligné est le principal facteur d'amélioration des performances. L'augmentation de la taille du jeu de données n'améliore pas de manière fiable la précision moyenne avec la recette d'entraînement fixe, mais réduit principalement la variance entre les exécutions, tandis que les heuristiques couramment utilisées de diversification et d'augmentation synthétique n'apportent aucun bénéfice supplémentaire et dégradent souvent les performances. Ces résultats caractérisent DCVLR comme une évaluation en régime de saturation et soulignent le rôle central de l'alignement et de la difficulté dans le raisonnement multimodal économe en données.
English
We study data curation for multimodal reasoning through the NeurIPS 2025 Data Curation for Vision-Language Reasoning (DCVLR) challenge, which isolates dataset selection by fixing the model and training protocol. Using a compact curated dataset derived primarily from Walton Multimodal Cold Start, our submission placed first in the challenge. Through post-competition ablations, we show that difficulty-based example selection on an aligned base dataset is the dominant driver of performance gains. Increasing dataset size does not reliably improve mean accuracy under the fixed training recipe, but mainly reduces run-to-run variance, while commonly used diversity and synthetic augmentation heuristics provide no additional benefit and often degrade performance. These results characterize DCVLR as a saturation-regime evaluation and highlight the central role of alignment and difficulty in data-efficient multimodal reasoning.