DeepVision-103K: 시각적으로 다양하며 포괄적이고 검증 가능한 다중모달 수학 추론 데이터셋
DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning
February 18, 2026
저자: Haoxiang Sun, Lizhen Xu, Bing Zhao, Wotao Yin, Wei Wang, Boyu Yang, Rui Wang, Hu Wei
cs.AI
초록
검증 가능한 보상 강화 학습(RLVR)이 대규모 멀티모달 모델(LMM)의 시각적 성찰 및 추론 능력 향상에 효과적인 것으로 입증되었습니다. 그러나 기존 데이터셋은 소규모 수동 구축이나 기존 자원의 재조합에 의존하는 경우가 대부분이어서 데이터 다양성과 범위가 제한되며, 이로 인해 모델 성능 향상에 한계가 있습니다. 이를 위해 본 연구에서는 다양한 K12 수학 주제, 광범위한 지식 포인트, 풍부한 시각적 요소를 포함하는 RLVR 학습용 포괄적 데이터셋인 DeepVision-103K를 소개합니다. DeepVision으로 학습된 모델은 멀티모달 수학 벤치마크에서 강력한 성능을 보이며, 일반 멀티모달 추론 과제에도 효과적으로 일반화됩니다. 심층 분석 결과, 학습된 모델에서 시각적 인지, 성찰 및 추론 능력이 향상되어 멀티모달 추론 발전을 위한 DeepVision의 효과성이 입증되었습니다. 데이터: https://huggingface.co/datasets/skylenage/DeepVision-103K{해당 URL}.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has been shown effective in enhancing the visual reflection and reasoning capabilities of Large Multimodal Models (LMMs). However, existing datasets are predominantly derived from either small-scale manual construction or recombination of prior resources, which limits data diversity and coverage, thereby constraining further gains in model performance. To this end, we introduce DeepVision-103K, a comprehensive dataset for RLVR training that covers diverse K12 mathematical topics, extensive knowledge points, and rich visual elements. Models trained on DeepVision achieve strong performance on multimodal mathematical benchmarks, and generalize effectively to general multimodal reasoning tasks. Further analysis reveals enhanced visual perception, reflection and reasoning capabilities in trained models, validating DeepVision's effectiveness for advancing multimodal reasoning. Data: https://huggingface.co/datasets/skylenage/DeepVision-103K{this url}.