¿Más pensamiento, menos precisión? Sobre la naturaleza dual del razonamiento en modelos de visión y lenguaje
More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models
September 30, 2025
Autores: Xinyu Tian, Shu Zou, Zhaoyuan Yang, Mengqi He, Fabian Waschkowski, Lukas Wesemann, Peter Tu, Jing Zhang
cs.AI
Resumen
El razonamiento ha surgido como una capacidad fundamental en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). A través del Aprendizaje por Refuerzo (RL, Reinforcement Learning), típicamente mediante la Optimización de Políticas Relativas de Grupo (GRPO, Group Relative Policy Optimization), estos modelos son capaces de resolver tareas complejas como la generación de código y problemas matemáticos. Basándose en estos avances, investigaciones recientes han buscado extender el razonamiento a los Modelos de Visión-Lenguaje (VLMs, Vision-Language Models), obteniendo resultados prometedores en diversas tareas visuales. A pesar de este progreso, nuestro estudio revela la naturaleza dual del razonamiento multimodal: aunque mejora sustancialmente la inferencia lógica y facilita el rendimiento en problemas desafiantes, puede deteriorar gradualmente la conexión perceptual, llevando a fallos de reconocimiento en preguntas visuales básicas. Mediante un análisis más profundo, atribuimos este fenómeno al olvido visual, donde el razonamiento prolongado hace que el modelo ignore cada vez más la entrada visual. Para abordar esto, proponemos la Optimización de Políticas Ancladas en la Visión (VAPO, Vision-Anchored Policy Optimization), un método simple pero efectivo que guía explícitamente el proceso de razonamiento hacia trayectorias visualmente fundamentadas. Nuestro modelo resultante, VAPO-Thinker-7B, fortalece significativamente la dependencia del modelo en la información visual y logra nuevos resultados de vanguardia en una amplia gama de benchmarks establecidos. Página del proyecto: https://xytian1008.github.io/VAPO/.
English
Reasoning has emerged as a pivotal capability in Large Language Models
(LLMs). Through Reinforcement Learning (RL), typically Group Relative Policy
Optimization (GRPO), these models are able to solve complex tasks such as
mathematics and code generation. Building on these advances, recent research
has sought to extend reasoning to Vision-Language Models (VLMs), yielding
promising results across diverse visual tasks. Despite this progress, our study
uncovers the dual nature of multimodal reasoning: while it substantially
enhances logical inference and facilitates performance on challenging problems,
it may gradually impair perceptual grounding, leading to recognition failures
on otherwise basic visual questions. Through further analysis, we attribute
this phenomenon to visual forgetting, wherein prolonged reasoning causes the
model to increasingly disregard visual input. To address this, we propose
Vision-Anchored Policy Optimization (VAPO), a simple yet effective method that
explicitly steers the reasoning process toward visually grounded trajectories.
Our result model, VAPO-Thinker-7B, significantly strengthens the model's
reliance on visual information and achieves new state-of-the-art results on a
wide range of established benchmarks. Project page:
https://xytian1008.github.io/VAPO/