DeepVision-103K:視覚的に多様で広範囲を網羅し検証可能なマルチモーダル推論のための数学データセット
DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning
February 18, 2026
著者: Haoxiang Sun, Lizhen Xu, Bing Zhao, Wotao Yin, Wei Wang, Boyu Yang, Rui Wang, Hu Wei
cs.AI
要旨
検証可能な報酬による強化学習(RLVR)は、大規模マルチモーダルモデル(LMM)の視覚的反射および推論能力を強化するのに効果的であることが実証されている。しかし、既存のデータセットは小規模な手動作成または既存リソースの再構成に依存している場合が多く、データの多様性と網羅性が制限されるため、モデル性能のさらなる向上が妨げられている。この課題に対処するため、我々はDeepVision-103Kを提案する。これは多様なK12数学トピック、広範な知識ポイント、豊富な視覚要素を網羅するRLVRトレーニング向け総合データセットである。DeepVisionで学習したモデルはマルチモーダル数学ベンチマークで強力な性能を発揮し、一般的なマルチモーダル推論タスクへも効果的に汎化した。詳細分析により、学習済みモデルでは視覚知覚・反射・推論能力が強化されていることが明らかとなり、マルチモーダル推論の発展におけるDeepVisionの有効性が実証された。データ:https://huggingface.co/datasets/skylenage/DeepVision-103K
English
Reinforcement Learning with Verifiable Rewards (RLVR) has been shown effective in enhancing the visual reflection and reasoning capabilities of Large Multimodal Models (LMMs). However, existing datasets are predominantly derived from either small-scale manual construction or recombination of prior resources, which limits data diversity and coverage, thereby constraining further gains in model performance. To this end, we introduce DeepVision-103K, a comprehensive dataset for RLVR training that covers diverse K12 mathematical topics, extensive knowledge points, and rich visual elements. Models trained on DeepVision achieve strong performance on multimodal mathematical benchmarks, and generalize effectively to general multimodal reasoning tasks. Further analysis reveals enhanced visual perception, reflection and reasoning capabilities in trained models, validating DeepVision's effectiveness for advancing multimodal reasoning. Data: https://huggingface.co/datasets/skylenage/DeepVision-103K{this url}.