오픈 비전 리소너: 시각적 추론을 위한 언어적 인지 행동 전이
Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning
July 7, 2025
저자: Yana Wei, Liang Zhao, Jianjian Sun, Kangheng Lin, Jisheng Yin, Jingcheng Hu, Yinmin Zhang, En Yu, Haoran Lv, Zejia Weng, Jia Wang, Chunrui Han, Yuang Peng, Qi Han, Zheng Ge, Xiangyu Zhang, Daxin Jiang, Vishal M. Patel
cs.AI
초록
대규모 언어 모델(LLMs)의 놀라운 추론 능력은 검증 가능한 보상을 통한 강화 학습에서 비롯된 인지적 행동에서 비롯됩니다. 본 연구는 이러한 원리를 다중모달 LLMs(MLLMs)로 전이시켜 고급 시각적 추론을 가능하게 하는 방법을 탐구합니다. 우리는 Qwen2.5-VL-7B를 기반으로 한 두 단계의 패러다임을 소개합니다: 대규모 언어적 콜드 스타트 미세 조정과 거의 1,000단계에 걸친 다중모달 강화 학습(RL)으로, 이는 이전의 모든 오픈소스 시도를 규모 면에서 능가합니다. 이 선구적인 연구는 세 가지 근본적인 통찰을 밝혀냅니다: 1) 언어적 정신적 이미지로 인해 콜드 스타트 초기에 놀라울 정도로 빠르게 행동 전이가 발생합니다. 2) 콜드 스타트는 시각적 행동을 광범위하게 기억하는 반면, RL은 효과적인 패턴을 비판적으로 식별하고 확장합니다. 3) 전이는 시각적 반사와 같은 고효용 행동을 전략적으로 선호합니다. 우리의 결과 모델인 Open-Vision-Reasoner(OVR)는 MATH500에서 95.3%, MathVision에서 51.8%, MathVerse에서 54.6%를 포함한 일련의 추론 벤치마크에서 최첨단 성능을 달성합니다. 우리는 더 능력 있고 행동 정렬된 다중모달 추론기의 개발을 촉진하기 위해 모델, 데이터 및 훈련 역학을 공개합니다.
English
The remarkable reasoning capability of large language models (LLMs) stems
from cognitive behaviors that emerge through reinforcement with verifiable
rewards. This work investigates how to transfer this principle to Multimodal
LLMs (MLLMs) to unlock advanced visual reasoning. We introduce a two-stage
paradigm built on Qwen2.5-VL-7B: a massive linguistic cold-start fine-tuning,
followed by multimodal reinforcement learning (RL) spanning nearly 1,000 steps,
surpassing all previous open-source efforts in scale. This pioneering work
reveals three fundamental insights: 1) Behavior transfer emerges surprisingly
early in cold start due to linguistic mental imagery. 2) Cold start broadly
memorizes visual behaviors, while RL critically discerns and scales up
effective patterns. 3) Transfer strategically favors high-utility behaviors
such as visual reflection. Our resulting model, Open-Vision-Reasoner (OVR),
achieves state-of-the-art performance on a suite of reasoning benchmarks,
including 95.3% on MATH500, 51.8% on MathVision and 54.6% on MathVerse. We
release our model, data, and training dynamics to catalyze the development of
more capable, behavior-aligned multimodal reasoners.