ChatPaper.aiChatPaper

R1-Onevision: 교차 모달 형식화를 통한 일반화된 다중 모달 추론의 발전

R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization

March 13, 2025
저자: Yi Yang, Xiaoxuan He, Hongkun Pan, Xiyan Jiang, Yan Deng, Xingtao Yang, Haoyu Lu, Dacheng Yin, Fengyun Rao, Minfeng Zhu, Bo Zhang, Wei Chen
cs.AI

초록

대형 언어 모델(Large Language Models)은 복잡한 텍스트 작업에서 놀라운 추론 능력을 보여주었습니다. 그러나 시각적 정보와 텍스트 정보를 통합해야 하는 다중 모드(multimodal) 추론은 여전히 큰 도전 과제로 남아 있습니다. 기존의 시각-언어 모델들은 시각적 콘텐츠를 효과적으로 분석하고 추론하는 데 어려움을 겪으며, 복잡한 추론 작업에서 최적의 성능을 내지 못하는 경우가 많습니다. 또한, 포괄적인 벤치마크의 부재는 다중 모드 추론 능력을 정확하게 평가하는 데 걸림돌이 되고 있습니다. 본 논문에서는 시각적 인식과 심층 추론 간의 격차를 해소하기 위해 설계된 다중 모드 추론 모델인 R1-Onevision을 소개합니다. 이를 위해 우리는 이미지를 형식적인 텍스트 표현으로 변환하여 정밀한 언어 기반 추론을 가능하게 하는 교차 모드(cross-modal) 추론 파이프라인을 제안합니다. 이 파이프라인을 활용하여, 우리는 다양한 도메인에 걸친 단계별 다중 모드 추론 주석을 제공하는 R1-Onevision 데이터셋을 구축했습니다. 또한, 고급 추론 능력과 강력한 일반화 능력을 배양하기 위해 지도 미세 조정(supervised fine-tuning)과 강화 학습(reinforcement learning)을 통해 R1-Onevision 모델을 개발했습니다. 다양한 학년 수준에 걸친 다중 모드 추론 성능을 포괄적으로 평가하기 위해, 우리는 중학교부터 대학 및 그 이상의 시험을 아우르는 인간 교육 단계와 맞춰진 벤치마크인 R1-Onevision-Bench를 도입했습니다. 실험 결과, R1-Onevision은 GPT-4o 및 Qwen2.5-VL과 같은 모델을 여러 도전적인 다중 모드 추론 벤치마크에서 능가하며 최첨단 성능을 달성했습니다.
English
Large Language Models have demonstrated remarkable reasoning capability in complex textual tasks. However, multimodal reasoning, which requires integrating visual and textual information, remains a significant challenge. Existing visual-language models often struggle to effectively analyze and reason visual content, resulting in suboptimal performance on complex reasoning tasks. Moreover, the absence of comprehensive benchmarks hinders the accurate assessment of multimodal reasoning capabilities. In this paper, we introduce R1-Onevision, a multimodal reasoning model designed to bridge the gap between visual perception and deep reasoning. To achieve this, we propose a cross-modal reasoning pipeline that transforms images into formal textural representations, enabling precise language-based reasoning. Leveraging this pipeline, we construct the R1-Onevision dataset which provides detailed, step-by-step multimodal reasoning annotations across diverse domains. We further develop the R1-Onevision model through supervised fine-tuning and reinforcement learning to cultivate advanced reasoning and robust generalization abilities. To comprehensively evaluate multimodal reasoning performance across different grades, we introduce R1-Onevision-Bench, a benchmark aligned with human educational stages, covering exams from junior high school to university and beyond. Experimental results show that R1-Onevision achieves state-of-the-art performance, outperforming models such as GPT-4o and Qwen2.5-VL on multiple challenging multimodal reasoning benchmarks.

Summary

AI-Generated Summary

PDF173March 14, 2025