R1-Onevision: Avanzare nel Ragionamento Multimodale Generalizzato attraverso la Formalizzazione Cross-Modale
R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization
March 13, 2025
Autori: Yi Yang, Xiaoxuan He, Hongkun Pan, Xiyan Jiang, Yan Deng, Xingtao Yang, Haoyu Lu, Dacheng Yin, Fengyun Rao, Minfeng Zhu, Bo Zhang, Wei Chen
cs.AI
Abstract
I modelli linguistici di grandi dimensioni hanno dimostrato una notevole capacità di ragionamento in compiti testuali complessi. Tuttavia, il ragionamento multimodale, che richiede l'integrazione di informazioni visive e testuali, rimane una sfida significativa. I modelli visivo-linguistici esistenti spesso faticano ad analizzare e ragionare efficacemente sul contenuto visivo, portando a prestazioni subottimali in compiti di ragionamento complessi. Inoltre, l'assenza di benchmark completi ostacola una valutazione accurata delle capacità di ragionamento multimodale. In questo articolo, introduciamo R1-Onevision, un modello di ragionamento multimodale progettato per colmare il divario tra percezione visiva e ragionamento profondo. Per raggiungere questo obiettivo, proponiamo una pipeline di ragionamento cross-modale che trasforma le immagini in rappresentazioni testuali formali, consentendo un ragionamento preciso basato sul linguaggio. Sfruttando questa pipeline, costruiamo il dataset R1-Onevision, che fornisce annotazioni dettagliate e passo-passo di ragionamento multimodale in diversi domini. Sviluppiamo ulteriormente il modello R1-Onevision attraverso fine-tuning supervisionato e apprendimento per rinforzo per coltivare capacità avanzate di ragionamento e generalizzazione robusta. Per valutare in modo completo le prestazioni di ragionamento multimodale attraverso diversi livelli, introduciamo R1-Onevision-Bench, un benchmark allineato con le fasi educative umane, che copre esami dalla scuola media all'università e oltre. I risultati sperimentali mostrano che R1-Onevision raggiunge prestazioni all'avanguardia, superando modelli come GPT-4o e Qwen2.5-VL su più benchmark impegnativi di ragionamento multimodale.
English
Large Language Models have demonstrated remarkable reasoning capability in
complex textual tasks. However, multimodal reasoning, which requires
integrating visual and textual information, remains a significant challenge.
Existing visual-language models often struggle to effectively analyze and
reason visual content, resulting in suboptimal performance on complex reasoning
tasks. Moreover, the absence of comprehensive benchmarks hinders the accurate
assessment of multimodal reasoning capabilities. In this paper, we introduce
R1-Onevision, a multimodal reasoning model designed to bridge the gap between
visual perception and deep reasoning. To achieve this, we propose a cross-modal
reasoning pipeline that transforms images into formal textural representations,
enabling precise language-based reasoning. Leveraging this pipeline, we
construct the R1-Onevision dataset which provides detailed, step-by-step
multimodal reasoning annotations across diverse domains. We further develop the
R1-Onevision model through supervised fine-tuning and reinforcement learning to
cultivate advanced reasoning and robust generalization abilities. To
comprehensively evaluate multimodal reasoning performance across different
grades, we introduce R1-Onevision-Bench, a benchmark aligned with human
educational stages, covering exams from junior high school to university and
beyond. Experimental results show that R1-Onevision achieves state-of-the-art
performance, outperforming models such as GPT-4o and Qwen2.5-VL on multiple
challenging multimodal reasoning benchmarks.Summary
AI-Generated Summary