ChatPaper.aiChatPaper

Mira de nuevo, piensa con calma: Mejorando la reflexión visual en modelos de visión y lenguaje

Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models

September 15, 2025
Autores: Pu Jian, Junhong Wu, Wei Sun, Chen Wang, Shuo Ren, Jiajun Zhang
cs.AI

Resumen

Los recientes avances en el razonamiento de "pensamiento lento" basado únicamente en texto han impulsado esfuerzos para transferir esta capacidad a los modelos de visión y lenguaje (VLMs), con el fin de entrenar modelos de razonamiento visual (VRMs). Sin embargo, dicha transferencia enfrenta desafíos críticos: el "pensamiento lento" efectivo en los VRMs requiere reflexión visual, es decir, la capacidad de verificar el proceso de razonamiento basándose en información visual. A través de un análisis cuantitativo, observamos que los VRMs actuales muestran una reflexión visual limitada, ya que su atención a la información visual disminuye rápidamente con respuestas generadas más extensas. Para abordar este desafío, proponemos un nuevo VRM, Reflection-V, que mejora la reflexión visual mediante la construcción de datos de razonamiento para el arranque en frío y el diseño de recompensas para el aprendizaje por refuerzo (RL). En primer lugar, construimos datos de razonamiento centrados en la visión utilizando un agente que interactúa entre VLMs y modelos de lenguaje de razonamiento (LLMs), permitiendo el aprendizaje de patrones de reflexión visual desde el arranque en frío. En segundo lugar, se emplea un modelo de recompensas basado en la atención visual durante el RL para fomentar el razonamiento basado en información visual. Como resultado, Reflection-V demuestra mejoras significativas en múltiples benchmarks de razonamiento visual. Además, Reflection-V mantiene una dependencia más fuerte y consistente en la información visual durante el razonamiento visual, lo que indica una mejora efectiva en las capacidades de reflexión visual.
English
Recent advances in text-only "slow-thinking" reasoning have prompted efforts to transfer this capability to vision-language models (VLMs), for training visual reasoning models (VRMs). owever, such transfer faces critical challenges: Effective "slow thinking" in VRMs requires visual reflection, the ability to check the reasoning process based on visual information. Through quantitative analysis, we observe that current VRMs exhibit limited visual reflection, as their attention to visual information diminishes rapidly with longer generated responses. To address this challenge, we propose a new VRM Reflection-V, which enhances visual reflection based on reasoning data construction for cold-start and reward design for reinforcement learning (RL). Firstly, we construct vision-centered reasoning data by leveraging an agent that interacts between VLMs and reasoning LLMs, enabling cold-start learning of visual reflection patterns. Secondly, a visual attention based reward model is employed during RL to encourage reasoning based on visual information. Therefore, Reflection-V demonstrates significant improvements across multiple visual reasoning benchmarks. Furthermore, Reflection-V maintains a stronger and more consistent reliance on visual information during visual reasoning, indicating effective enhancement in visual reflection capabilities.
PDF52September 16, 2025