ChatPaper.aiChatPaper

R1-Onevision: Vooruitgang in Gegeneraliseerd Multimodaal Redeneren door Cross-Modale Formalering

R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization

March 13, 2025
Auteurs: Yi Yang, Xiaoxuan He, Hongkun Pan, Xiyan Jiang, Yan Deng, Xingtao Yang, Haoyu Lu, Dacheng Yin, Fengyun Rao, Minfeng Zhu, Bo Zhang, Wei Chen
cs.AI

Samenvatting

Grote Taalmodellen hebben opmerkelijke redeneervaardigheden getoond bij complexe tekstuele taken. Multimodaal redeneren, dat het integreren van visuele en tekstuele informatie vereist, blijft echter een aanzienlijke uitdaging. Bestaande visueel-taalkundige modellen hebben vaak moeite om visuele inhoud effectief te analyseren en te redeneren, wat resulteert in suboptimale prestaties bij complexe redeneertaken. Bovendien belemmert het ontbreken van uitgebreide benchmarks de nauwkeurige beoordeling van multimodale redeneervaardigheden. In dit artikel introduceren we R1-Onevision, een multimodaal redeneermodel dat is ontworpen om de kloof tussen visuele waarneming en diepgaand redeneren te overbruggen. Om dit te bereiken, stellen we een cross-modale redeneerpijplijn voor die afbeeldingen omzet in formele tekstuele representaties, waardoor precies taalgebaseerd redeneren mogelijk wordt. Met behulp van deze pijplijn construeren we de R1-Onevision-dataset, die gedetailleerde, stapsgewijze multimodale redeneerannotaties biedt over diverse domeinen. We ontwikkelen het R1-Onevision-model verder door middel van supervised fine-tuning en reinforcement learning om geavanceerde redeneer- en robuuste generalisatievaardigheden te cultiveren. Om multimodale redeneerprestaties over verschillende niveaus uitgebreid te evalueren, introduceren we R1-Onevision-Bench, een benchmark die is afgestemd op menselijke onderwijsstadia, en examens omvat van de middelbare school tot de universiteit en daarbuiten. Experimentele resultaten tonen aan dat R1-Onevision state-of-the-art prestaties bereikt, en modellen zoals GPT-4o en Qwen2.5-VL overtreft op meerdere uitdagende multimodale redeneerbenchmarks.
English
Large Language Models have demonstrated remarkable reasoning capability in complex textual tasks. However, multimodal reasoning, which requires integrating visual and textual information, remains a significant challenge. Existing visual-language models often struggle to effectively analyze and reason visual content, resulting in suboptimal performance on complex reasoning tasks. Moreover, the absence of comprehensive benchmarks hinders the accurate assessment of multimodal reasoning capabilities. In this paper, we introduce R1-Onevision, a multimodal reasoning model designed to bridge the gap between visual perception and deep reasoning. To achieve this, we propose a cross-modal reasoning pipeline that transforms images into formal textural representations, enabling precise language-based reasoning. Leveraging this pipeline, we construct the R1-Onevision dataset which provides detailed, step-by-step multimodal reasoning annotations across diverse domains. We further develop the R1-Onevision model through supervised fine-tuning and reinforcement learning to cultivate advanced reasoning and robust generalization abilities. To comprehensively evaluate multimodal reasoning performance across different grades, we introduce R1-Onevision-Bench, a benchmark aligned with human educational stages, covering exams from junior high school to university and beyond. Experimental results show that R1-Onevision achieves state-of-the-art performance, outperforming models such as GPT-4o and Qwen2.5-VL on multiple challenging multimodal reasoning benchmarks.

Summary

AI-Generated Summary

PDF173March 14, 2025