시각-언어 느린 사고 추론을 위한 준-오프-정책 강화 학습
Semi-off-Policy Reinforcement Learning for Vision-Language Slow-thinking Reasoning
July 22, 2025
저자: Junhao Shen, Haiteng Zhao, Yuzhe Gu, Songyang Gao, Kuikun Liu, Haian Huang, Jianfei Gao, Dahua Lin, Wenwei Zhang, Kai Chen
cs.AI
초록
대규모 시각-언어 모델(LVLMs)에 시각적 느린 사고 추론 능력을 강화하는 것은 복잡한 다중모드 작업을 해결하는 데 중요합니다. 그러나 LVLMs는 주로 시각-언어 정렬로 훈련되기 때문에, 초기 능력에 의해 롤아웃 공간이 제한되어 느린 사고 능력을 개발하기 위해 온-정책 강화 학습(RL)을 적용하기 어렵습니다. 오프-정책 RL은 현재 정책을 넘어설 수 있는 방법을 제공하지만, 외부 모델에서 직접 궤적을 추출하면 모델 간 시각 인식 능력의 불일치로 인해 시각적 환각이 발생할 수 있습니다. 이러한 문제를 해결하기 위해, 본 논문은 SOPHIA라는 간단하고 확장 가능한 시각-언어 느린 사고 추론을 위한 준-오프-정책 RL을 제안합니다. SOPHIA는 훈련 가능한 LVLM의 온-정책 시각 이해와 언어 모델의 오프-정책 느린 사고 추론을 결합하여 준-오프-정책 행동 모델을 구축하고, 추론에 결과 기반 보상을 할당하며, 시각적 보상을 역전파합니다. 그런 다음 LVLM은 오프-정책 RL 알고리즘을 통해 얻은 추론 궤적에서 느린 사고 추론 능력을 학습합니다. 8B 및 38B 크기의 InternVL2.5 및 InternVL3.0을 사용한 광범위한 실험은 SOPHIA의 효과를 보여줍니다. 특히, SOPHIA는 InternVL3.0-38B를 평균 8.50% 향상시켜, 여러 다중모드 추론 벤치마크에서 오픈소스 LVLMs 중 최신 성능을 달성했으며, 도전적인 MathVision 및 OlympiadBench에서 일부 폐쇄형 모델(예: GPT-4.1)을 능가하여 각각 49.08% 및 49.95%의 pass@1 정확도를 달성했습니다. 분석 결과, SOPHIA는 지도 미세 조정 및 직접 온-정책 RL 방법을 능가하며, 추가 온-정책 훈련을 위한 더 나은 정책 초기화를 제공합니다.
English
Enhancing large vision-language models (LVLMs) with visual slow-thinking
reasoning is crucial for solving complex multimodal tasks. However, since LVLMs
are mainly trained with vision-language alignment, it is difficult to adopt
on-policy reinforcement learning (RL) to develop the slow thinking ability
because the rollout space is restricted by its initial abilities. Off-policy RL
offers a way to go beyond the current policy, but directly distilling
trajectories from external models may cause visual hallucinations due to
mismatched visual perception abilities across models. To address these issues,
this paper proposes SOPHIA, a simple and scalable Semi-Off-Policy RL for
vision-language slow-tHInking reAsoning. SOPHIA builds a semi-off-policy
behavior model by combining on-policy visual understanding from a trainable
LVLM with off-policy slow-thinking reasoning from a language model, assigns
outcome-based rewards to reasoning, and propagates visual rewards backward.
Then LVLM learns slow-thinking reasoning ability from the obtained reasoning
trajectories using propagated rewards via off-policy RL algorithms. Extensive
experiments with InternVL2.5 and InternVL3.0 with 8B and 38B sizes show the
effectiveness of SOPHIA. Notably, SOPHIA improves InternVL3.0-38B by 8.50% in
average, reaching state-of-the-art performance among open-source LVLMs on
multiple multimodal reasoning benchmarks, and even outperforms some
closed-source models (e.g., GPT-4.1) on the challenging MathVision and
OlympiadBench, achieving 49.08% and 49.95% pass@1 accuracy, respectively.
Analysis shows SOPHIA outperforms supervised fine-tuning and direct on-policy
RL methods, offering a better policy initialization for further on-policy
training.