Meer Denken, Minder Nauwkeurigheid? Over de Duale Aard van Redeneren in Visie-Taalmodellen
More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models
September 30, 2025
Auteurs: Xinyu Tian, Shu Zou, Zhaoyuan Yang, Mengqi He, Fabian Waschkowski, Lukas Wesemann, Peter Tu, Jing Zhang
cs.AI
Samenvatting
Redeneren is naar voren gekomen als een cruciale vaardigheid in grote taalmodel-
len (LLMs). Door middel van Reinforcement Learning (RL), meestal Group Relative
Policy Optimization (GRPO), zijn deze modellen in staat complexe taken op te lossen,
zoals wiskunde en codegeneratie. Gebaseerd op deze vooruitgang heeft recent onder-
zoek geprobeerd redeneren uit te breiden naar visueel-taalmodel-len (VLMs), wat
veelbelovende resultaten heeft opgeleverd voor diverse visuele taken. Ondanks deze
vooruitgang onthult onze studie de dubbele aard van multimodaal redeneren: hoewel
het logische inferentie aanzienlijk verbetert en prestaties op uitdagende problemen
faciliteert, kan het geleidelijk aan de perceptuele verankering aantasten, wat leidt tot
herkenningsfouten bij anders eenvoudige visuele vragen. Door verdere analyse schrij-
ven we dit fenomeen toe aan visueel vergeten, waarbij langdurig redeneren ervoor
zorgt dat het model visuele input steeds meer negeert. Om dit aan te pakken, stellen
we Vision-Anchored Policy Optimization (VAPO) voor, een eenvoudige maar effectieve
methode die het redeneerproces expliciet stuurt naar visueel verankerde trajecten.
Ons resulterende model, VAPO-Thinker-7B, versterkt de afhankelijkheid van het model
van visuele informatie aanzienlijk en behaalt nieuwe state-of-the-art resultaten op
een breed scala aan gevestigde benchmarks. Projectpagina:
https://xytian1008.github.io/VAPO/
English
Reasoning has emerged as a pivotal capability in Large Language Models
(LLMs). Through Reinforcement Learning (RL), typically Group Relative Policy
Optimization (GRPO), these models are able to solve complex tasks such as
mathematics and code generation. Building on these advances, recent research
has sought to extend reasoning to Vision-Language Models (VLMs), yielding
promising results across diverse visual tasks. Despite this progress, our study
uncovers the dual nature of multimodal reasoning: while it substantially
enhances logical inference and facilitates performance on challenging problems,
it may gradually impair perceptual grounding, leading to recognition failures
on otherwise basic visual questions. Through further analysis, we attribute
this phenomenon to visual forgetting, wherein prolonged reasoning causes the
model to increasingly disregard visual input. To address this, we propose
Vision-Anchored Policy Optimization (VAPO), a simple yet effective method that
explicitly steers the reasoning process toward visually grounded trajectories.
Our result model, VAPO-Thinker-7B, significantly strengthens the model's
reliance on visual information and achieves new state-of-the-art results on a
wide range of established benchmarks. Project page:
https://xytian1008.github.io/VAPO/