マルチモーダル推論におけるデータキュレーションの重要性とは?DCVLRチャレンジからの示唆
What Matters in Data Curation for Multimodal Reasoning? Insights from the DCVLR Challenge
January 16, 2026
著者: Yosub Shin, Michael Buriek, Boris Sobolev, Pavel Bushuyeu, Vikas Kumar, Haoyang Xu, Samuel Watson, Igor Molybog
cs.AI
要旨
本論文では、モデルと学習プロトコルを固定することでデータセット選択の効果を分離したNeurIPS 2025「視覚言語推論のためのデータキュレーション(DCVLR)」チャレンジを通じて、マルチモーダル推論のためのデータキュレーションを検討する。主にWalton Multimodal Cold Startから派生したコンパクトな精選データセットを用いた我々の提案手法は、本チャレンジで首位を獲得した。競技後の追加検証により、整列された基本データセットに対する難易度ベースの事例選択が性能向上の主要因であることを示す。固定された学習レシピの下では、データセット規模の拡大は平均精度を確実に向上させるわけではなく、主に試行間の分散を低減する効果に留まる。一方、一般に用いられる多様性基準や合成的データ拡張のヒューリスティクスは追加の利益をもたらさず、むしろ性能を劣化させる場合が多い。これらの結果は、DCVLRを飽和領域における評価として位置づけ、データ効率的なマルチモーダル推論においてデータ整列と難易度が中心的な役割を果たすことを明らかにする。
English
We study data curation for multimodal reasoning through the NeurIPS 2025 Data Curation for Vision-Language Reasoning (DCVLR) challenge, which isolates dataset selection by fixing the model and training protocol. Using a compact curated dataset derived primarily from Walton Multimodal Cold Start, our submission placed first in the challenge. Through post-competition ablations, we show that difficulty-based example selection on an aligned base dataset is the dominant driver of performance gains. Increasing dataset size does not reliably improve mean accuracy under the fixed training recipe, but mainly reduces run-to-run variance, while commonly used diversity and synthetic augmentation heuristics provide no additional benefit and often degrade performance. These results characterize DCVLR as a saturation-regime evaluation and highlight the central role of alignment and difficulty in data-efficient multimodal reasoning.