Semi-off-Policy Reinforcement Learning voor Visueel-Taalmatig Langzaam-denken Redeneren
Semi-off-Policy Reinforcement Learning for Vision-Language Slow-thinking Reasoning
July 22, 2025
Auteurs: Junhao Shen, Haiteng Zhao, Yuzhe Gu, Songyang Gao, Kuikun Liu, Haian Huang, Jianfei Gao, Dahua Lin, Wenwei Zhang, Kai Chen
cs.AI
Samenvatting
Het verbeteren van grote visie-taalmodellen (LVLMs) met visueel langzaam-denken redeneren is cruciaal voor het oplossen van complexe multimodale taken. Omdat LVLMs echter voornamelijk worden getraind met visie-taalafstemming, is het moeilijk om on-policy reinforcement learning (RL) toe te passen om het langzaam-denken vermogen te ontwikkelen, aangezien de rollout-ruimte beperkt wordt door de initiële vaardigheden. Off-policy RL biedt een manier om verder te gaan dan het huidige beleid, maar het direct destilleren van trajecten uit externe modellen kan visuele hallucinaties veroorzaken vanwege mismatches in visuele perceptievaardigheden tussen modellen. Om deze problemen aan te pakken, stelt dit artikel SOPHIA voor, een eenvoudige en schaalbare Semi-Off-Policy RL voor visie-taal langzaam-denken redeneren. SOPHIA bouwt een semi-off-policy gedragsmodel door on-policy visueel begrip van een trainbare LVLM te combineren met off-policy langzaam-denken redeneren van een taalmodel, wijst uitkomstgebaseerde beloningen toe aan redeneren, en propageert visuele beloningen achterwaarts. Vervolgens leert de LVLM het langzaam-denken redeneervermogen van de verkregen redeneertrajecten met behulp van gepropageerde beloningen via off-policy RL-algoritmen. Uitgebreide experimenten met InternVL2.5 en InternVL3.0 met 8B en 38B grootten tonen de effectiviteit van SOPHIA aan. Opmerkelijk is dat SOPHIA InternVL3.0-38B met gemiddeld 8.50% verbetert, wat resulteert in state-of-the-art prestaties onder open-source LVLMs op meerdere multimodale redeneerbenchmarks, en zelfs sommige closed-source modellen (bijv. GPT-4.1) overtreft op de uitdagende MathVision en OlympiadBench, met respectievelijk 49.08% en 49.95% pass@1 nauwkeurigheid. Analyse toont aan dat SOPHIA supervised fine-tuning en directe on-policy RL-methoden overtreft, en biedt een betere beleidsinitialisatie voor verdere on-policy training.
English
Enhancing large vision-language models (LVLMs) with visual slow-thinking
reasoning is crucial for solving complex multimodal tasks. However, since LVLMs
are mainly trained with vision-language alignment, it is difficult to adopt
on-policy reinforcement learning (RL) to develop the slow thinking ability
because the rollout space is restricted by its initial abilities. Off-policy RL
offers a way to go beyond the current policy, but directly distilling
trajectories from external models may cause visual hallucinations due to
mismatched visual perception abilities across models. To address these issues,
this paper proposes SOPHIA, a simple and scalable Semi-Off-Policy RL for
vision-language slow-tHInking reAsoning. SOPHIA builds a semi-off-policy
behavior model by combining on-policy visual understanding from a trainable
LVLM with off-policy slow-thinking reasoning from a language model, assigns
outcome-based rewards to reasoning, and propagates visual rewards backward.
Then LVLM learns slow-thinking reasoning ability from the obtained reasoning
trajectories using propagated rewards via off-policy RL algorithms. Extensive
experiments with InternVL2.5 and InternVL3.0 with 8B and 38B sizes show the
effectiveness of SOPHIA. Notably, SOPHIA improves InternVL3.0-38B by 8.50% in
average, reaching state-of-the-art performance among open-source LVLMs on
multiple multimodal reasoning benchmarks, and even outperforms some
closed-source models (e.g., GPT-4.1) on the challenging MathVision and
OlympiadBench, achieving 49.08% and 49.95% pass@1 accuracy, respectively.
Analysis shows SOPHIA outperforms supervised fine-tuning and direct on-policy
RL methods, offering a better policy initialization for further on-policy
training.