ChatPaper.aiChatPaper

Meer Denken, Minder Nauwkeurigheid? Over de Duale Aard van Redeneren in Visie-Taalmodellen

More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models

September 30, 2025
Auteurs: Xinyu Tian, Shu Zou, Zhaoyuan Yang, Mengqi He, Fabian Waschkowski, Lukas Wesemann, Peter Tu, Jing Zhang
cs.AI

Samenvatting

Redeneren is naar voren gekomen als een cruciale vaardigheid in grote taalmodel- len (LLMs). Door middel van Reinforcement Learning (RL), meestal Group Relative Policy Optimization (GRPO), zijn deze modellen in staat complexe taken op te lossen, zoals wiskunde en codegeneratie. Gebaseerd op deze vooruitgang heeft recent onder- zoek geprobeerd redeneren uit te breiden naar visueel-taalmodel-len (VLMs), wat veelbelovende resultaten heeft opgeleverd voor diverse visuele taken. Ondanks deze vooruitgang onthult onze studie de dubbele aard van multimodaal redeneren: hoewel het logische inferentie aanzienlijk verbetert en prestaties op uitdagende problemen faciliteert, kan het geleidelijk aan de perceptuele verankering aantasten, wat leidt tot herkenningsfouten bij anders eenvoudige visuele vragen. Door verdere analyse schrij- ven we dit fenomeen toe aan visueel vergeten, waarbij langdurig redeneren ervoor zorgt dat het model visuele input steeds meer negeert. Om dit aan te pakken, stellen we Vision-Anchored Policy Optimization (VAPO) voor, een eenvoudige maar effectieve methode die het redeneerproces expliciet stuurt naar visueel verankerde trajecten. Ons resulterende model, VAPO-Thinker-7B, versterkt de afhankelijkheid van het model van visuele informatie aanzienlijk en behaalt nieuwe state-of-the-art resultaten op een breed scala aan gevestigde benchmarks. Projectpagina: https://xytian1008.github.io/VAPO/
English
Reasoning has emerged as a pivotal capability in Large Language Models (LLMs). Through Reinforcement Learning (RL), typically Group Relative Policy Optimization (GRPO), these models are able to solve complex tasks such as mathematics and code generation. Building on these advances, recent research has sought to extend reasoning to Vision-Language Models (VLMs), yielding promising results across diverse visual tasks. Despite this progress, our study uncovers the dual nature of multimodal reasoning: while it substantially enhances logical inference and facilitates performance on challenging problems, it may gradually impair perceptual grounding, leading to recognition failures on otherwise basic visual questions. Through further analysis, we attribute this phenomenon to visual forgetting, wherein prolonged reasoning causes the model to increasingly disregard visual input. To address this, we propose Vision-Anchored Policy Optimization (VAPO), a simple yet effective method that explicitly steers the reasoning process toward visually grounded trajectories. Our result model, VAPO-Thinker-7B, significantly strengthens the model's reliance on visual information and achieves new state-of-the-art results on a wide range of established benchmarks. Project page: https://xytian1008.github.io/VAPO/
PDF773October 1, 2025