R1-Onevision: Avanzando en el razonamiento multimodal generalizado mediante la formalización intermodal
R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization
March 13, 2025
Autores: Yi Yang, Xiaoxuan He, Hongkun Pan, Xiyan Jiang, Yan Deng, Xingtao Yang, Haoyu Lu, Dacheng Yin, Fengyun Rao, Minfeng Zhu, Bo Zhang, Wei Chen
cs.AI
Resumen
Los modelos de lenguaje a gran escala han demostrado una capacidad de razonamiento notable en tareas textuales complejas. Sin embargo, el razonamiento multimodal, que requiere integrar información visual y textual, sigue siendo un desafío significativo. Los modelos visual-lingüísticos existentes a menudo tienen dificultades para analizar y razonar de manera efectiva el contenido visual, lo que resulta en un rendimiento subóptimo en tareas de razonamiento complejas. Además, la ausencia de puntos de referencia integrales dificulta la evaluación precisa de las capacidades de razonamiento multimodal. En este artículo, presentamos R1-Onevision, un modelo de razonamiento multimodal diseñado para cerrar la brecha entre la percepción visual y el razonamiento profundo. Para lograrlo, proponemos una canalización de razonamiento multimodal que transforma imágenes en representaciones textuales formales, permitiendo un razonamiento preciso basado en el lenguaje. Aprovechando esta canalización, construimos el conjunto de datos R1-Onevision, que proporciona anotaciones detalladas y paso a paso de razonamiento multimodal en diversos dominios. Además, desarrollamos el modelo R1-Onevision mediante ajuste fino supervisado y aprendizaje por refuerzo para cultivar habilidades avanzadas de razonamiento y una robusta capacidad de generalización. Para evaluar de manera integral el rendimiento del razonamiento multimodal en diferentes niveles, introducimos R1-Onevision-Bench, un punto de referencia alineado con las etapas educativas humanas, que cubre exámenes desde la escuela secundaria hasta la universidad y más allá. Los resultados experimentales muestran que R1-Onevision alcanza un rendimiento de vanguardia, superando a modelos como GPT-4o y Qwen2.5-VL en múltiples puntos de referencia desafiantes de razonamiento multimodal.
English
Large Language Models have demonstrated remarkable reasoning capability in
complex textual tasks. However, multimodal reasoning, which requires
integrating visual and textual information, remains a significant challenge.
Existing visual-language models often struggle to effectively analyze and
reason visual content, resulting in suboptimal performance on complex reasoning
tasks. Moreover, the absence of comprehensive benchmarks hinders the accurate
assessment of multimodal reasoning capabilities. In this paper, we introduce
R1-Onevision, a multimodal reasoning model designed to bridge the gap between
visual perception and deep reasoning. To achieve this, we propose a cross-modal
reasoning pipeline that transforms images into formal textural representations,
enabling precise language-based reasoning. Leveraging this pipeline, we
construct the R1-Onevision dataset which provides detailed, step-by-step
multimodal reasoning annotations across diverse domains. We further develop the
R1-Onevision model through supervised fine-tuning and reinforcement learning to
cultivate advanced reasoning and robust generalization abilities. To
comprehensively evaluate multimodal reasoning performance across different
grades, we introduce R1-Onevision-Bench, a benchmark aligned with human
educational stages, covering exams from junior high school to university and
beyond. Experimental results show that R1-Onevision achieves state-of-the-art
performance, outperforming models such as GPT-4o and Qwen2.5-VL on multiple
challenging multimodal reasoning benchmarks.