Aprendizado por Reforço Semi-Off-Policy para Raciocínio Lento de Visão e Linguagem
Semi-off-Policy Reinforcement Learning for Vision-Language Slow-thinking Reasoning
July 22, 2025
Autores: Junhao Shen, Haiteng Zhao, Yuzhe Gu, Songyang Gao, Kuikun Liu, Haian Huang, Jianfei Gao, Dahua Lin, Wenwei Zhang, Kai Chen
cs.AI
Resumo
Aprimorar grandes modelos de visão e linguagem (LVLMs) com raciocínio visual de pensamento lento é crucial para resolver tarefas multimodais complexas. No entanto, como os LVLMs são principalmente treinados com alinhamento visão-linguagem, é difícil adotar aprendizado por reforço (RL) on-policy para desenvolver a capacidade de pensamento lento, pois o espaço de rollouts é restrito por suas habilidades iniciais. O RL off-policy oferece uma maneira de ir além da política atual, mas a destilação direta de trajetórias de modelos externos pode causar alucinações visuais devido a habilidades de percepção visual desalinhadas entre os modelos. Para abordar esses problemas, este artigo propõe o SOPHIA, um RL Semi-Off-Policy simples e escalável para raciocínio de pensamento lento em visão e linguagem. O SOPHIA constrói um modelo de comportamento semi-off-policy combinando a compreensão visual on-policy de um LVLM treinável com o raciocínio de pensamento lento off-policy de um modelo de linguagem, atribui recompensas baseadas em resultados ao raciocínio e propaga recompensas visuais retroativamente. Em seguida, o LVLM aprende a capacidade de raciocínio de pensamento lento a partir das trajetórias de raciocínio obtidas usando recompensas propagadas por meio de algoritmos de RL off-policy. Experimentos extensivos com InternVL2.5 e InternVL3.0 com tamanhos de 8B e 38B mostram a eficácia do SOPHIA. Notavelmente, o SOPHIA melhora o InternVL3.0-38B em 8,50% em média, alcançando desempenho de ponta entre LVLMs de código aberto em vários benchmarks de raciocínio multimodal, e até supera alguns modelos de código fechado (por exemplo, GPT-4.1) nos desafiadores MathVision e OlympiadBench, atingindo 49,08% e 49,95% de precisão pass@1, respectivamente. A análise mostra que o SOPHIA supera o ajuste fino supervisionado e os métodos diretos de RL on-policy, oferecendo uma melhor inicialização de política para treinamento on-policy adicional.
English
Enhancing large vision-language models (LVLMs) with visual slow-thinking
reasoning is crucial for solving complex multimodal tasks. However, since LVLMs
are mainly trained with vision-language alignment, it is difficult to adopt
on-policy reinforcement learning (RL) to develop the slow thinking ability
because the rollout space is restricted by its initial abilities. Off-policy RL
offers a way to go beyond the current policy, but directly distilling
trajectories from external models may cause visual hallucinations due to
mismatched visual perception abilities across models. To address these issues,
this paper proposes SOPHIA, a simple and scalable Semi-Off-Policy RL for
vision-language slow-tHInking reAsoning. SOPHIA builds a semi-off-policy
behavior model by combining on-policy visual understanding from a trainable
LVLM with off-policy slow-thinking reasoning from a language model, assigns
outcome-based rewards to reasoning, and propagates visual rewards backward.
Then LVLM learns slow-thinking reasoning ability from the obtained reasoning
trajectories using propagated rewards via off-policy RL algorithms. Extensive
experiments with InternVL2.5 and InternVL3.0 with 8B and 38B sizes show the
effectiveness of SOPHIA. Notably, SOPHIA improves InternVL3.0-38B by 8.50% in
average, reaching state-of-the-art performance among open-source LVLMs on
multiple multimodal reasoning benchmarks, and even outperforms some
closed-source models (e.g., GPT-4.1) on the challenging MathVision and
OlympiadBench, achieving 49.08% and 49.95% pass@1 accuracy, respectively.
Analysis shows SOPHIA outperforms supervised fine-tuning and direct on-policy
RL methods, offering a better policy initialization for further on-policy
training.