Apprendimento per Rinforzo Semi-Off-Policy per il Ragionamento Lento Visione-Linguaggio
Semi-off-Policy Reinforcement Learning for Vision-Language Slow-thinking Reasoning
July 22, 2025
Autori: Junhao Shen, Haiteng Zhao, Yuzhe Gu, Songyang Gao, Kuikun Liu, Haian Huang, Jianfei Gao, Dahua Lin, Wenwei Zhang, Kai Chen
cs.AI
Abstract
Migliorare i grandi modelli visione-linguaggio (LVLM) con il ragionamento visivo a pensiero lento è cruciale per risolvere compiti multimodali complessi. Tuttavia, poiché i LVLM sono principalmente addestrati con l'allineamento visione-linguaggio, è difficile adottare il reinforcement learning (RL) on-policy per sviluppare la capacità di pensiero lento, poiché lo spazio di rollout è limitato dalle loro abilità iniziali. L'RL off-policy offre un modo per andare oltre la politica corrente, ma distillare direttamente le traiettorie da modelli esterni può causare allucinazioni visive a causa di capacità di percezione visiva non corrispondenti tra i modelli. Per affrontare questi problemi, questo articolo propone SOPHIA, un semplice e scalabile Semi-Off-Policy RL per il ragionamento a pensiero lento visione-linguaggio. SOPHIA costruisce un modello di comportamento semi-off-policy combinando la comprensione visiva on-policy da un LVLM addestrabile con il ragionamento a pensiero lento off-policy da un modello linguistico, assegna ricompense basate sui risultati al ragionamento e propaga le ricompense visive all'indietro. Quindi, il LVLM apprende la capacità di ragionamento a pensiero lento dalle traiettorie di ragionamento ottenute utilizzando le ricompense propagate tramite algoritmi RL off-policy. Esperimenti estesi con InternVL2.5 e InternVL3.0 di dimensioni 8B e 38B dimostrano l'efficacia di SOPHIA. In particolare, SOPHIA migliora InternVL3.0-38B dell'8.50% in media, raggiungendo prestazioni all'avanguardia tra i LVLM open-source su più benchmark di ragionamento multimodale, e supera persino alcuni modelli closed-source (ad esempio, GPT-4.1) su MathVision e OlympiadBench, raggiungendo rispettivamente il 49.08% e il 49.95% di accuratezza pass@1. L'analisi mostra che SOPHIA supera il fine-tuning supervisionato e i metodi RL on-policy diretti, offrendo una migliore inizializzazione della politica per ulteriori addestramenti on-policy.
English
Enhancing large vision-language models (LVLMs) with visual slow-thinking
reasoning is crucial for solving complex multimodal tasks. However, since LVLMs
are mainly trained with vision-language alignment, it is difficult to adopt
on-policy reinforcement learning (RL) to develop the slow thinking ability
because the rollout space is restricted by its initial abilities. Off-policy RL
offers a way to go beyond the current policy, but directly distilling
trajectories from external models may cause visual hallucinations due to
mismatched visual perception abilities across models. To address these issues,
this paper proposes SOPHIA, a simple and scalable Semi-Off-Policy RL for
vision-language slow-tHInking reAsoning. SOPHIA builds a semi-off-policy
behavior model by combining on-policy visual understanding from a trainable
LVLM with off-policy slow-thinking reasoning from a language model, assigns
outcome-based rewards to reasoning, and propagates visual rewards backward.
Then LVLM learns slow-thinking reasoning ability from the obtained reasoning
trajectories using propagated rewards via off-policy RL algorithms. Extensive
experiments with InternVL2.5 and InternVL3.0 with 8B and 38B sizes show the
effectiveness of SOPHIA. Notably, SOPHIA improves InternVL3.0-38B by 8.50% in
average, reaching state-of-the-art performance among open-source LVLMs on
multiple multimodal reasoning benchmarks, and even outperforms some
closed-source models (e.g., GPT-4.1) on the challenging MathVision and
OlympiadBench, achieving 49.08% and 49.95% pass@1 accuracy, respectively.
Analysis shows SOPHIA outperforms supervised fine-tuning and direct on-policy
RL methods, offering a better policy initialization for further on-policy
training.