Semi-Off-Policy Reinforcement Learning für visuell-sprachliches Langsamdenken und Schlussfolgern
Semi-off-Policy Reinforcement Learning for Vision-Language Slow-thinking Reasoning
July 22, 2025
papers.authors: Junhao Shen, Haiteng Zhao, Yuzhe Gu, Songyang Gao, Kuikun Liu, Haian Huang, Jianfei Gao, Dahua Lin, Wenwei Zhang, Kai Chen
cs.AI
papers.abstract
Die Verbesserung großer visuell-sprachlicher Modelle (LVLMs) durch visuelles Slow-Thinking-Reasoning ist entscheidend für die Lösung komplexer multimodaler Aufgaben. Da LVLMs jedoch hauptsächlich mit visuell-sprachlicher Ausrichtung trainiert werden, ist es schwierig, On-Policy Reinforcement Learning (RL) zur Entwicklung der Slow-Thinking-Fähigkeit einzusetzen, da der Rollout-Raum durch die anfänglichen Fähigkeiten eingeschränkt ist. Off-Policy RL bietet eine Möglichkeit, über die aktuelle Policy hinauszugehen, aber die direkte Destillation von Trajektorien aus externen Modellen kann aufgrund von nicht übereinstimmenden visuellen Wahrnehmungsfähigkeiten zwischen den Modellen zu visuellen Halluzinationen führen. Um diese Probleme zu adressieren, schlägt dieses Papier SOPHIA vor, ein einfaches und skalierbares Semi-Off-Policy RL für visuell-sprachliches Slow-Thinking-Reasoning. SOPHIA baut ein Semi-Off-Policy-Verhaltensmodell auf, indem es On-Policy visuelles Verständnis eines trainierbaren LVLM mit Off-Policy Slow-Thinking-Reasoning eines Sprachmodells kombiniert, ergebnisbasierte Belohnungen für das Reasoning zuweist und visuelle Belohnungen rückwärts propagiert. Anschließend lernt das LVLM die Slow-Thinking-Reasoning-Fähigkeit aus den erhaltenen Reasoning-Trajektorien mithilfe der propagierten Belohnungen über Off-Policy RL-Algorithmen. Umfangreiche Experimente mit InternVL2.5 und InternVL3.0 in den Größen 8B und 38B zeigen die Wirksamkeit von SOPHIA. Insbesondere verbessert SOPHIA InternVL3.0-38B im Durchschnitt um 8,50 % und erreicht state-of-the-art Leistungen unter Open-Source-LVLMs in mehreren multimodalen Reasoning-Benchmarks. Es übertrifft sogar einige Closed-Source-Modelle (z. B. GPT-4.1) in den anspruchsvollen Benchmarks MathVision und OlympiadBench mit einer Pass@1-Genauigkeit von 49,08 % bzw. 49,95 %. Analysen zeigen, dass SOPHIA überwachtes Fein-Tuning und direkte On-Policy RL-Methoden übertrifft und eine bessere Policy-Initialisierung für weiteres On-Policy-Training bietet.
English
Enhancing large vision-language models (LVLMs) with visual slow-thinking
reasoning is crucial for solving complex multimodal tasks. However, since LVLMs
are mainly trained with vision-language alignment, it is difficult to adopt
on-policy reinforcement learning (RL) to develop the slow thinking ability
because the rollout space is restricted by its initial abilities. Off-policy RL
offers a way to go beyond the current policy, but directly distilling
trajectories from external models may cause visual hallucinations due to
mismatched visual perception abilities across models. To address these issues,
this paper proposes SOPHIA, a simple and scalable Semi-Off-Policy RL for
vision-language slow-tHInking reAsoning. SOPHIA builds a semi-off-policy
behavior model by combining on-policy visual understanding from a trainable
LVLM with off-policy slow-thinking reasoning from a language model, assigns
outcome-based rewards to reasoning, and propagates visual rewards backward.
Then LVLM learns slow-thinking reasoning ability from the obtained reasoning
trajectories using propagated rewards via off-policy RL algorithms. Extensive
experiments with InternVL2.5 and InternVL3.0 with 8B and 38B sizes show the
effectiveness of SOPHIA. Notably, SOPHIA improves InternVL3.0-38B by 8.50% in
average, reaching state-of-the-art performance among open-source LVLMs on
multiple multimodal reasoning benchmarks, and even outperforms some
closed-source models (e.g., GPT-4.1) on the challenging MathVision and
OlympiadBench, achieving 49.08% and 49.95% pass@1 accuracy, respectively.
Analysis shows SOPHIA outperforms supervised fine-tuning and direct on-policy
RL methods, offering a better policy initialization for further on-policy
training.