ChatPaper.aiChatPaper

R1-Onevision: Avançando o Raciocínio Multimodal Generalizado por meio da Formalização Intermodal

R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization

March 13, 2025
Autores: Yi Yang, Xiaoxuan He, Hongkun Pan, Xiyan Jiang, Yan Deng, Xingtao Yang, Haoyu Lu, Dacheng Yin, Fengyun Rao, Minfeng Zhu, Bo Zhang, Wei Chen
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala demonstraram uma capacidade notável de raciocínio em tarefas textuais complexas. No entanto, o raciocínio multimodal, que requer a integração de informações visuais e textuais, continua sendo um desafio significativo. Os modelos visuais-linguísticos existentes frequentemente lutam para analisar e raciocinar efetivamente sobre o conteúdo visual, resultando em desempenho subótimo em tarefas de raciocínio complexas. Além disso, a ausência de benchmarks abrangentes dificulta a avaliação precisa das capacidades de raciocínio multimodal. Neste artigo, apresentamos o R1-Onevision, um modelo de raciocínio multimodal projetado para preencher a lacuna entre a percepção visual e o raciocínio profundo. Para isso, propomos um pipeline de raciocínio cross-modal que transforma imagens em representações textuais formais, permitindo um raciocínio preciso baseado em linguagem. Utilizando esse pipeline, construímos o conjunto de dados R1-Onevision, que fornece anotações detalhadas e passo a passo de raciocínio multimodal em diversos domínios. Desenvolvemos ainda o modelo R1-Onevision por meio de ajuste fino supervisionado e aprendizado por reforço para cultivar habilidades avançadas de raciocínio e generalização robusta. Para avaliar de forma abrangente o desempenho do raciocínio multimodal em diferentes níveis, introduzimos o R1-Onevision-Bench, um benchmark alinhado com os estágios educacionais humanos, cobrindo exames desde o ensino médio até a universidade e além. Os resultados experimentais mostram que o R1-Onevision alcança desempenho de ponta, superando modelos como GPT-4o e Qwen2.5-VL em vários benchmarks desafiadores de raciocínio multimodal.
English
Large Language Models have demonstrated remarkable reasoning capability in complex textual tasks. However, multimodal reasoning, which requires integrating visual and textual information, remains a significant challenge. Existing visual-language models often struggle to effectively analyze and reason visual content, resulting in suboptimal performance on complex reasoning tasks. Moreover, the absence of comprehensive benchmarks hinders the accurate assessment of multimodal reasoning capabilities. In this paper, we introduce R1-Onevision, a multimodal reasoning model designed to bridge the gap between visual perception and deep reasoning. To achieve this, we propose a cross-modal reasoning pipeline that transforms images into formal textural representations, enabling precise language-based reasoning. Leveraging this pipeline, we construct the R1-Onevision dataset which provides detailed, step-by-step multimodal reasoning annotations across diverse domains. We further develop the R1-Onevision model through supervised fine-tuning and reinforcement learning to cultivate advanced reasoning and robust generalization abilities. To comprehensively evaluate multimodal reasoning performance across different grades, we introduce R1-Onevision-Bench, a benchmark aligned with human educational stages, covering exams from junior high school to university and beyond. Experimental results show that R1-Onevision achieves state-of-the-art performance, outperforming models such as GPT-4o and Qwen2.5-VL on multiple challenging multimodal reasoning benchmarks.

Summary

AI-Generated Summary

PDF173March 14, 2025