R1-Onevision : Faire progresser le raisonnement multimodal généralisé grâce à la formalisation intermodale
R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization
March 13, 2025
Auteurs: Yi Yang, Xiaoxuan He, Hongkun Pan, Xiyan Jiang, Yan Deng, Xingtao Yang, Haoyu Lu, Dacheng Yin, Fengyun Rao, Minfeng Zhu, Bo Zhang, Wei Chen
cs.AI
Résumé
Les grands modèles de langage ont démontré une capacité de raisonnement remarquable dans des tâches textuelles complexes. Cependant, le raisonnement multimodal, qui nécessite l'intégration d'informations visuelles et textuelles, reste un défi majeur. Les modèles visio-linguistiques existants peinent souvent à analyser et à raisonner efficacement sur le contenu visuel, ce qui entraîne des performances sous-optimales dans les tâches de raisonnement complexes. De plus, l'absence de benchmarks complets entrave l'évaluation précise des capacités de raisonnement multimodal. Dans cet article, nous présentons R1-Onevision, un modèle de raisonnement multimodal conçu pour combler le fossé entre la perception visuelle et le raisonnement approfondi. Pour y parvenir, nous proposons un pipeline de raisonnement intermodal qui transforme les images en représentations textuelles formelles, permettant un raisonnement précis basé sur le langage. En exploitant ce pipeline, nous construisons le jeu de données R1-Onevision, qui fournit des annotations détaillées et étape par étape pour le raisonnement multimodal dans divers domaines. Nous développons ensuite le modèle R1-Onevision par un réglage fin supervisé et un apprentissage par renforcement pour cultiver des capacités de raisonnement avancées et une robuste généralisation. Pour évaluer de manière exhaustive les performances de raisonnement multimodal à différents niveaux, nous introduisons R1-Onevision-Bench, un benchmark aligné sur les étapes éducatives humaines, couvrant des examens allant du collège à l'université et au-delà. Les résultats expérimentaux montrent que R1-Onevision atteint des performances de pointe, surpassant des modèles tels que GPT-4o et Qwen2.5-VL sur plusieurs benchmarks de raisonnement multimodal exigeants.
English
Large Language Models have demonstrated remarkable reasoning capability in
complex textual tasks. However, multimodal reasoning, which requires
integrating visual and textual information, remains a significant challenge.
Existing visual-language models often struggle to effectively analyze and
reason visual content, resulting in suboptimal performance on complex reasoning
tasks. Moreover, the absence of comprehensive benchmarks hinders the accurate
assessment of multimodal reasoning capabilities. In this paper, we introduce
R1-Onevision, a multimodal reasoning model designed to bridge the gap between
visual perception and deep reasoning. To achieve this, we propose a cross-modal
reasoning pipeline that transforms images into formal textural representations,
enabling precise language-based reasoning. Leveraging this pipeline, we
construct the R1-Onevision dataset which provides detailed, step-by-step
multimodal reasoning annotations across diverse domains. We further develop the
R1-Onevision model through supervised fine-tuning and reinforcement learning to
cultivate advanced reasoning and robust generalization abilities. To
comprehensively evaluate multimodal reasoning performance across different
grades, we introduce R1-Onevision-Bench, a benchmark aligned with human
educational stages, covering exams from junior high school to university and
beyond. Experimental results show that R1-Onevision achieves state-of-the-art
performance, outperforming models such as GPT-4o and Qwen2.5-VL on multiple
challenging multimodal reasoning benchmarks.Summary
AI-Generated Summary