DeepVision-103K: Een Visueel Diverse, Breed Toepasbare en Verifieerbare Wiskundige Dataset voor Multimodale Redenering
DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning
February 18, 2026
Auteurs: Haoxiang Sun, Lizhen Xu, Bing Zhao, Wotao Yin, Wei Wang, Boyu Yang, Rui Wang, Hu Wei
cs.AI
Samenvatting
Reinforcement Learning with Verifiable Rewards (RLVR) is effectief gebleken in het verbeteren van het visueel reflectie- en redeneervermogen van Large Multimodal Models (LMM's). Bestaande datasets zijn echter voornamelijk afkomstig van kleinschalige handmatige constructie of recombinatie van bestaande bronnen, wat de diversiteit en dekking van de data beperkt en daardoor verdere verbetering van de modelprestaties in de weg staat. Daarom introduceren wij DeepVision-103K, een uitgebreide dataset voor RLVR-training die diverse wiskundeonderwerpen uit het K12-onderwijs, uitgebreide kennispunten en rijke visuele elementen omvat. Modellen die getraind zijn op DeepVision behalen sterke prestaties op multimodale wiskundige benchmarks en generaliseren effectief naar algemene multimodale redeneertaken. Verdere analyse toont een verbeterd visueel waarnemings-, reflectie- en redeneervermogen aan bij getrainde modellen, wat de effectiviteit van DeepVision voor het bevorderen van multimodaal redeneren bevestigt. Data: https://huggingface.co/datasets/skylenage/DeepVision-103K{deze url}.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has been shown effective in enhancing the visual reflection and reasoning capabilities of Large Multimodal Models (LMMs). However, existing datasets are predominantly derived from either small-scale manual construction or recombination of prior resources, which limits data diversity and coverage, thereby constraining further gains in model performance. To this end, we introduce DeepVision-103K, a comprehensive dataset for RLVR training that covers diverse K12 mathematical topics, extensive knowledge points, and rich visual elements. Models trained on DeepVision achieve strong performance on multimodal mathematical benchmarks, and generalize effectively to general multimodal reasoning tasks. Further analysis reveals enhanced visual perception, reflection and reasoning capabilities in trained models, validating DeepVision's effectiveness for advancing multimodal reasoning. Data: https://huggingface.co/datasets/skylenage/DeepVision-103K{this url}.