더 많은 사고, 더 낮은 정확도? 시각-언어 모델에서 추론의 이중적 본질에 관하여
More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models
September 30, 2025
저자: Xinyu Tian, Shu Zou, Zhaoyuan Yang, Mengqi He, Fabian Waschkowski, Lukas Wesemann, Peter Tu, Jing Zhang
cs.AI
초록
추론 능력은 대형 언어 모델(LLMs)의 핵심 역량으로 부상했습니다. 강화 학습(Reinforcement Learning, RL), 특히 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 통해 이러한 모델들은 수학 및 코드 생성과 같은 복잡한 과제를 해결할 수 있습니다. 이러한 발전을 바탕으로, 최근 연구는 시각-언어 모델(Vision-Language Models, VLMs)로 추론 능력을 확장하려는 시도를 이어가며 다양한 시각적 과제에서 유망한 결과를 보여주고 있습니다. 그러나 이러한 진전에도 불구하고, 우리의 연구는 다중 모달 추론의 이중적 특성을 발견했습니다: 추론은 논리적 추론을 크게 향상시키고 어려운 문제 해결을 용이하게 하지만, 점차적으로 지각적 근거(perceptual grounding)를 약화시켜 기본적인 시각적 질문에서 인식 실패를 초래할 수 있습니다. 추가 분석을 통해, 우리는 이러한 현상을 시각적 망각(visual forgetting)으로 규명했습니다. 이는 장기간의 추론 과정에서 모델이 점차 시각적 입력을 무시하게 되는 현상을 의미합니다. 이를 해결하기 위해, 우리는 시각적 근거에 기반한 궤적을 명시적으로 유도하는 간단하지만 효과적인 방법인 시각 고정 정책 최적화(Vision-Anchored Policy Optimization, VAPO)를 제안합니다. 우리의 결과 모델인 VAPO-Thinker-7B는 모델의 시각 정보 의존성을 크게 강화하며, 다양한 기존 벤치마크에서 새로운 최첨단 결과를 달성했습니다. 프로젝트 페이지: https://xytian1008.github.io/VAPO/
English
Reasoning has emerged as a pivotal capability in Large Language Models
(LLMs). Through Reinforcement Learning (RL), typically Group Relative Policy
Optimization (GRPO), these models are able to solve complex tasks such as
mathematics and code generation. Building on these advances, recent research
has sought to extend reasoning to Vision-Language Models (VLMs), yielding
promising results across diverse visual tasks. Despite this progress, our study
uncovers the dual nature of multimodal reasoning: while it substantially
enhances logical inference and facilitates performance on challenging problems,
it may gradually impair perceptual grounding, leading to recognition failures
on otherwise basic visual questions. Through further analysis, we attribute
this phenomenon to visual forgetting, wherein prolonged reasoning causes the
model to increasingly disregard visual input. To address this, we propose
Vision-Anchored Policy Optimization (VAPO), a simple yet effective method that
explicitly steers the reasoning process toward visually grounded trajectories.
Our result model, VAPO-Thinker-7B, significantly strengthens the model's
reliance on visual information and achieves new state-of-the-art results on a
wide range of established benchmarks. Project page:
https://xytian1008.github.io/VAPO/