R1-Onevision: クロスモーダル形式化による汎用マルチモーダル推論の推進
R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization
March 13, 2025
著者: Yi Yang, Xiaoxuan He, Hongkun Pan, Xiyan Jiang, Yan Deng, Xingtao Yang, Haoyu Lu, Dacheng Yin, Fengyun Rao, Minfeng Zhu, Bo Zhang, Wei Chen
cs.AI
要旨
大規模言語モデルは、複雑なテキストタスクにおいて顕著な推論能力を発揮してきました。しかし、視覚情報とテキスト情報を統合する必要があるマルチモーダル推論は、依然として大きな課題となっています。既存の視覚言語モデルは、視覚コンテンツを効果的に分析・推論することが難しく、複雑な推論タスクにおいて最適なパフォーマンスを発揮できていません。さらに、包括的なベンチマークの欠如が、マルチモーダル推論能力の正確な評価を妨げています。本論文では、視覚的知覚と深い推論のギャップを埋めるために設計されたマルチモーダル推論モデル「R1-Onevision」を紹介します。これを実現するために、画像を形式的なテキスト表現に変換し、正確な言語ベースの推論を可能にするクロスモーダル推論パイプラインを提案します。このパイプラインを活用し、多様なドメインにわたる詳細なステップバイステップのマルチモーダル推論アノテーションを提供する「R1-Onevision」データセットを構築しました。さらに、教師ありファインチューニングと強化学習を通じて「R1-Onevision」モデルを開発し、高度な推論能力と堅牢な汎化能力を育成しました。異なるグレードにわたるマルチモーダル推論性能を包括的に評価するために、中学校から大学、そしてそれ以降の試験をカバーする人間の教育段階に沿ったベンチマーク「R1-Onevision-Bench」を導入しました。実験結果は、「R1-Onevision」が最先端のパフォーマンスを達成し、GPT-4oやQwen2.5-VLなどのモデルを複数の挑戦的なマルチモーダル推論ベンチマークで上回ることを示しています。
English
Large Language Models have demonstrated remarkable reasoning capability in
complex textual tasks. However, multimodal reasoning, which requires
integrating visual and textual information, remains a significant challenge.
Existing visual-language models often struggle to effectively analyze and
reason visual content, resulting in suboptimal performance on complex reasoning
tasks. Moreover, the absence of comprehensive benchmarks hinders the accurate
assessment of multimodal reasoning capabilities. In this paper, we introduce
R1-Onevision, a multimodal reasoning model designed to bridge the gap between
visual perception and deep reasoning. To achieve this, we propose a cross-modal
reasoning pipeline that transforms images into formal textural representations,
enabling precise language-based reasoning. Leveraging this pipeline, we
construct the R1-Onevision dataset which provides detailed, step-by-step
multimodal reasoning annotations across diverse domains. We further develop the
R1-Onevision model through supervised fine-tuning and reinforcement learning to
cultivate advanced reasoning and robust generalization abilities. To
comprehensively evaluate multimodal reasoning performance across different
grades, we introduce R1-Onevision-Bench, a benchmark aligned with human
educational stages, covering exams from junior high school to university and
beyond. Experimental results show that R1-Onevision achieves state-of-the-art
performance, outperforming models such as GPT-4o and Qwen2.5-VL on multiple
challenging multimodal reasoning benchmarks.Summary
AI-Generated Summary