Open Vision Reasoner: Trasferimento del Comportamento Cognitivo Linguistico per il Ragionamento Visivo
Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning
July 7, 2025
Autori: Yana Wei, Liang Zhao, Jianjian Sun, Kangheng Lin, Jisheng Yin, Jingcheng Hu, Yinmin Zhang, En Yu, Haoran Lv, Zejia Weng, Jia Wang, Chunrui Han, Yuang Peng, Qi Han, Zheng Ge, Xiangyu Zhang, Daxin Jiang, Vishal M. Patel
cs.AI
Abstract
La straordinaria capacità di ragionamento dei grandi modelli linguistici (LLMs) deriva da comportamenti cognitivi che emergono attraverso il rinforzo con ricompense verificabili. Questo lavoro indaga come trasferire questo principio ai Modelli Linguistici Multimodali (MLLMs) per sbloccare un ragionamento visivo avanzato. Introduciamo un paradigma in due fasi basato su Qwen2.5-VL-7B: un massiccio fine-tuning linguistico in cold-start, seguito da un apprendimento per rinforzo (RL) multimodale che copre quasi 1.000 passi, superando in scala tutti i precedenti sforzi open-source. Questo lavoro pionieristico rivela tre intuizioni fondamentali: 1) Il trasferimento di comportamento emerge sorprendentemente presto nel cold-start grazie all'immaginazione mentale linguistica. 2) Il cold-start memorizza ampiamente i comportamenti visivi, mentre il RL discerna e amplifichi in modo critico i modelli efficaci. 3) Il trasferimento favorisce strategicamente comportamenti ad alta utilità come la riflessione visiva. Il nostro modello risultante, Open-Vision-Reasoner (OVR), raggiunge prestazioni all'avanguardia su una serie di benchmark di ragionamento, inclusi il 95,3% su MATH500, il 51,8% su MathVision e il 54,6% su MathVerse. Rilasciamo il nostro modello, i dati e le dinamiche di addestramento per catalizzare lo sviluppo di ragionatori multimodali più capaci e allineati nei comportamenti.
English
The remarkable reasoning capability of large language models (LLMs) stems
from cognitive behaviors that emerge through reinforcement with verifiable
rewards. This work investigates how to transfer this principle to Multimodal
LLMs (MLLMs) to unlock advanced visual reasoning. We introduce a two-stage
paradigm built on Qwen2.5-VL-7B: a massive linguistic cold-start fine-tuning,
followed by multimodal reinforcement learning (RL) spanning nearly 1,000 steps,
surpassing all previous open-source efforts in scale. This pioneering work
reveals three fundamental insights: 1) Behavior transfer emerges surprisingly
early in cold start due to linguistic mental imagery. 2) Cold start broadly
memorizes visual behaviors, while RL critically discerns and scales up
effective patterns. 3) Transfer strategically favors high-utility behaviors
such as visual reflection. Our resulting model, Open-Vision-Reasoner (OVR),
achieves state-of-the-art performance on a suite of reasoning benchmarks,
including 95.3% on MATH500, 51.8% on MathVision and 54.6% on MathVerse. We
release our model, data, and training dynamics to catalyze the development of
more capable, behavior-aligned multimodal reasoners.