ChatPaper.aiChatPaper

Aprendizaje por Refuerzo Semi-Off-Policy para el Razonamiento de Pensamiento Lento en Visión y Lenguaje

Semi-off-Policy Reinforcement Learning for Vision-Language Slow-thinking Reasoning

July 22, 2025
Autores: Junhao Shen, Haiteng Zhao, Yuzhe Gu, Songyang Gao, Kuikun Liu, Haian Huang, Jianfei Gao, Dahua Lin, Wenwei Zhang, Kai Chen
cs.AI

Resumen

Mejorar los modelos grandes de visión y lenguaje (LVLMs, por sus siglas en inglés) con razonamiento visual de pensamiento lento es crucial para resolver tareas multimodales complejas. Sin embargo, dado que los LVLMs se entrenan principalmente con alineación visión-lenguaje, es difícil adoptar el aprendizaje por refuerzo (RL) on-policy para desarrollar la capacidad de pensamiento lento, ya que el espacio de exploración está limitado por sus habilidades iniciales. El RL off-policy ofrece una forma de ir más allá de la política actual, pero la destilación directa de trayectorias desde modelos externos puede causar alucinaciones visuales debido a las capacidades de percepción visual desajustadas entre modelos. Para abordar estos problemas, este artículo propone SOPHIA, un enfoque de RL Semi-Off-Policy simple y escalable para el razonamiento de pensamiento lento en visión y lenguaje. SOPHIA construye un modelo de comportamiento semi-off-policy combinando la comprensión visual on-policy de un LVLM entrenable con el razonamiento de pensamiento lento off-policy de un modelo de lenguaje, asigna recompensas basadas en resultados al razonamiento y propaga las recompensas visuales hacia atrás. Luego, el LVLM aprende la capacidad de razonamiento de pensamiento lento a partir de las trayectorias de razonamiento obtenidas utilizando las recompensas propagadas mediante algoritmos de RL off-policy. Experimentos exhaustivos con InternVL2.5 e InternVL3.0, con tamaños de 8B y 38B, demuestran la efectividad de SOPHIA. Notablemente, SOPHIA mejora InternVL3.0-38B en un 8.50% en promedio, alcanzando un rendimiento de vanguardia entre los LVLMs de código abierto en múltiples benchmarks de razonamiento multimodal, e incluso supera a algunos modelos de código cerrado (por ejemplo, GPT-4.1) en los desafiantes MathVision y OlympiadBench, logrando un 49.08% y un 49.95% de precisión pass@1, respectivamente. El análisis muestra que SOPHIA supera los métodos de ajuste fino supervisado y los enfoques de RL on-policy directos, ofreciendo una mejor inicialización de políticas para un entrenamiento on-policy adicional.
English
Enhancing large vision-language models (LVLMs) with visual slow-thinking reasoning is crucial for solving complex multimodal tasks. However, since LVLMs are mainly trained with vision-language alignment, it is difficult to adopt on-policy reinforcement learning (RL) to develop the slow thinking ability because the rollout space is restricted by its initial abilities. Off-policy RL offers a way to go beyond the current policy, but directly distilling trajectories from external models may cause visual hallucinations due to mismatched visual perception abilities across models. To address these issues, this paper proposes SOPHIA, a simple and scalable Semi-Off-Policy RL for vision-language slow-tHInking reAsoning. SOPHIA builds a semi-off-policy behavior model by combining on-policy visual understanding from a trainable LVLM with off-policy slow-thinking reasoning from a language model, assigns outcome-based rewards to reasoning, and propagates visual rewards backward. Then LVLM learns slow-thinking reasoning ability from the obtained reasoning trajectories using propagated rewards via off-policy RL algorithms. Extensive experiments with InternVL2.5 and InternVL3.0 with 8B and 38B sizes show the effectiveness of SOPHIA. Notably, SOPHIA improves InternVL3.0-38B by 8.50% in average, reaching state-of-the-art performance among open-source LVLMs on multiple multimodal reasoning benchmarks, and even outperforms some closed-source models (e.g., GPT-4.1) on the challenging MathVision and OlympiadBench, achieving 49.08% and 49.95% pass@1 accuracy, respectively. Analysis shows SOPHIA outperforms supervised fine-tuning and direct on-policy RL methods, offering a better policy initialization for further on-policy training.
PDF221July 23, 2025