Apprentissage par Renforcement Semi-Hors-Politique pour le Raisonnement Lent Vision-Langage
Semi-off-Policy Reinforcement Learning for Vision-Language Slow-thinking Reasoning
July 22, 2025
papers.authors: Junhao Shen, Haiteng Zhao, Yuzhe Gu, Songyang Gao, Kuikun Liu, Haian Huang, Jianfei Gao, Dahua Lin, Wenwei Zhang, Kai Chen
cs.AI
papers.abstract
L'amélioration des grands modèles vision-langage (LVLMs) grâce à un raisonnement visuel de type "pensée lente" est cruciale pour résoudre des tâches multimodales complexes. Cependant, comme les LVLMs sont principalement entraînés pour l'alignement vision-langage, il est difficile d'adopter l'apprentissage par renforcement (RL) on-policy pour développer cette capacité de pensée lente, car l'espace de déploiement est limité par leurs capacités initiales. Le RL off-policy offre une manière de dépasser la politique actuelle, mais la distillation directe de trajectoires à partir de modèles externes peut entraîner des hallucinations visuelles en raison de capacités de perception visuelle mal alignées entre les modèles. Pour résoudre ces problèmes, cet article propose SOPHIA, une méthode simple et évolutive de RL Semi-Off-Policy pour le raisonnement visuel-langage de type pensée lente. SOPHIA construit un modèle de comportement semi-off-policy en combinant la compréhension visuelle on-policy d'un LVLM entraînable avec le raisonnement de pensée lente off-policy d'un modèle de langage, attribue des récompenses basées sur les résultats au raisonnement, et propage les récompenses visuelles en arrière. Ensuite, le LVLM apprend la capacité de raisonnement de pensée lente à partir des trajectoires de raisonnement obtenues en utilisant les récompenses propagées via des algorithmes de RL off-policy. Des expériences approfondies avec InternVL2.5 et InternVL3.0 de tailles 8B et 38B montrent l'efficacité de SOPHIA. Notamment, SOPHIA améliore InternVL3.0-38B de 8,50 % en moyenne, atteignant des performances de pointe parmi les LVLMs open-source sur plusieurs benchmarks de raisonnement multimodal, et surpasse même certains modèles propriétaires (par exemple, GPT-4.1) sur les défis difficiles de MathVision et OlympiadBench, avec des précisions pass@1 de 49,08 % et 49,95 %, respectivement. L'analyse montre que SOPHIA surpasse le fine-tuning supervisé et les méthodes de RL on-policy directes, offrant une meilleure initialisation de politique pour un entraînement on-policy ultérieur.
English
Enhancing large vision-language models (LVLMs) with visual slow-thinking
reasoning is crucial for solving complex multimodal tasks. However, since LVLMs
are mainly trained with vision-language alignment, it is difficult to adopt
on-policy reinforcement learning (RL) to develop the slow thinking ability
because the rollout space is restricted by its initial abilities. Off-policy RL
offers a way to go beyond the current policy, but directly distilling
trajectories from external models may cause visual hallucinations due to
mismatched visual perception abilities across models. To address these issues,
this paper proposes SOPHIA, a simple and scalable Semi-Off-Policy RL for
vision-language slow-tHInking reAsoning. SOPHIA builds a semi-off-policy
behavior model by combining on-policy visual understanding from a trainable
LVLM with off-policy slow-thinking reasoning from a language model, assigns
outcome-based rewards to reasoning, and propagates visual rewards backward.
Then LVLM learns slow-thinking reasoning ability from the obtained reasoning
trajectories using propagated rewards via off-policy RL algorithms. Extensive
experiments with InternVL2.5 and InternVL3.0 with 8B and 38B sizes show the
effectiveness of SOPHIA. Notably, SOPHIA improves InternVL3.0-38B by 8.50% in
average, reaching state-of-the-art performance among open-source LVLMs on
multiple multimodal reasoning benchmarks, and even outperforms some
closed-source models (e.g., GPT-4.1) on the challenging MathVision and
OlympiadBench, achieving 49.08% and 49.95% pass@1 accuracy, respectively.
Analysis shows SOPHIA outperforms supervised fine-tuning and direct on-policy
RL methods, offering a better policy initialization for further on-policy
training.