Percepción Visual Reforzada con Herramientas
Reinforced Visual Perception with Tools
September 1, 2025
Autores: Zetong Zhou, Dongping Chen, Zixian Ma, Zhihan Hu, Mingyang Fu, Sinan Wang, Yao Wan, Zhou Zhao, Ranjay Krishna
cs.AI
Resumen
El razonamiento visual, un pilar fundamental de la inteligencia humana, abarca procesos perceptivos y lógicos complejos esenciales para resolver diversos problemas visuales. Si bien los avances en visión por computadora han producido modelos potentes para diversas tareas perceptivas, aprovechar estos modelos para el razonamiento visual general sigue siendo un desafío. Trabajos previos demuestran que aumentar los LLM con modelos de visión mediante ajuste fino supervisado mejora el rendimiento, pero enfrenta limitaciones clave como la generación costosa de datos, la dependencia de un filtrado cuidadoso de datos y una mala generalización. Para abordar estos problemas, proponemos ReVPT para mejorar las habilidades de los LLM multimodales para razonar y utilizar herramientas visuales mediante aprendizaje por refuerzo. Introducimos un novedoso algoritmo de RL basado en GRPO, diseñado para entrenar modelos a razonar con un conjunto de cuatro herramientas visuales. A través de extensos experimentos, demostramos que nuestro método alcanza un rendimiento de vanguardia en varios benchmarks con fuerte componente perceptiva, incluyendo SAT, CV-Bench, BLINK y MMStar, superando significativamente las líneas base de ajuste fino supervisado y RL basado en texto. Notablemente, nuestros ReVPT-3B y ReVPT-7B superan a los modelos instruct en un 9.03% y 9.44% en CV-Bench. Finalmente, aportamos a la comunidad nuevas perspectivas sobre el uso de herramientas visuales basadas en RL a través de extensas ablaciones. Nuestro código está disponible en https://github.com/ls-kelvin/REVPT.
English
Visual reasoning, a cornerstone of human intelligence, encompasses complex
perceptual and logical processes essential for solving diverse visual problems.
While advances in computer vision have produced powerful models for various
perceptual tasks, leveraging these for general visual reasoning remains
challenging. Prior work demonstrates that augmenting LLMs with vision models
via supervised finetuning improves performance, but faces key limitations such
as expensive data generation, reliance on careful data filtering, and poor
generalization. To address these issues, we propose ReVPT to enhance
multi-modal LLMs' abilities to reason about and use visual tools through
reinforcement learning. We introduce a novel RL algorithm based on GRPO,
designed to train models to reason with a suite of four visual tools. Through
extensive experiments, we show that our method achieves state-of-the-art
performance on several perception-heavy benchmarks, including SAT, CV-Bench,
BLINK and MMStar, significantly outperforming the supervised and text-based RL
finetuning baselines. Notably, Our ReVPT-3B and ReVPT-7B outperform the
instruct models by 9.03% and 9.44% on CV-Bench. Finally, we bring to the
community new insights on RL-based visual tool-usage through extensive
ablations. Our code is available at https://github.com/ls-kelvin/REVPT.