DeepVision-103K : un ensemble de données mathématique visuellement diversifié, à large couverture et vérifiable pour le raisonnement multimodal
DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning
February 18, 2026
papers.authors: Haoxiang Sun, Lizhen Xu, Bing Zhao, Wotao Yin, Wei Wang, Boyu Yang, Rui Wang, Hu Wei
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) s'est avéré efficace pour améliorer les capacités de réflexion visuelle et de raisonnement des modèles multimodaux de grande taille (LMM). Cependant, les ensembles de données existants proviennent principalement soit d'une construction manuelle à petite échelle, soit d'une recombinaison de ressources antérieures, ce qui limite la diversité et la couverture des données, entravant ainsi les gains supplémentaires de performance des modèles. Pour pallier cela, nous présentons DeepVision-103K, un ensemble de données complet pour l'entraînement RLVR qui couvre divers sujets mathématiques du primaire au secondaire (K12), de nombreux points de connaissance et des éléments visuels riches. Les modèles entraînés sur DeepVision obtiennent de solides performances sur des benchmarks mathématiques multimodaux et généralisent efficacement à des tâches de raisonnement multimodal général. Une analyse plus poussée révèle des capacités accrues de perception visuelle, de réflexion et de raisonnement chez les modèles entraînés, validant ainsi l'efficacité de DeepVision pour faire progresser le raisonnement multimodal. Données : https://huggingface.co/datasets/skylenage/DeepVision-103K{ce lien}.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has been shown effective in enhancing the visual reflection and reasoning capabilities of Large Multimodal Models (LMMs). However, existing datasets are predominantly derived from either small-scale manual construction or recombination of prior resources, which limits data diversity and coverage, thereby constraining further gains in model performance. To this end, we introduce DeepVision-103K, a comprehensive dataset for RLVR training that covers diverse K12 mathematical topics, extensive knowledge points, and rich visual elements. Models trained on DeepVision achieve strong performance on multimodal mathematical benchmarks, and generalize effectively to general multimodal reasoning tasks. Further analysis reveals enhanced visual perception, reflection and reasoning capabilities in trained models, validating DeepVision's effectiveness for advancing multimodal reasoning. Data: https://huggingface.co/datasets/skylenage/DeepVision-103K{this url}.