Percepción Visual Reforzada con Herramientas

Resumen

El razonamiento visual, un pilar fundamental de la inteligencia humana, abarca procesos perceptivos y lógicos complejos esenciales para resolver diversos problemas visuales. Si bien los avances en visión por computadora han producido modelos potentes para diversas tareas perceptivas, aprovechar estos modelos para el razonamiento visual general sigue siendo un desafío. Trabajos previos demuestran que aumentar los LLM con modelos de visión mediante ajuste fino supervisado mejora el rendimiento, pero enfrenta limitaciones clave como la generación costosa de datos, la dependencia de un filtrado cuidadoso de datos y una mala generalización. Para abordar estos problemas, proponemos ReVPT para mejorar las habilidades de los LLM multimodales para razonar y utilizar herramientas visuales mediante aprendizaje por refuerzo. Introducimos un novedoso algoritmo de RL basado en GRPO, diseñado para entrenar modelos a razonar con un conjunto de cuatro herramientas visuales. A través de extensos experimentos, demostramos que nuestro método alcanza un rendimiento de vanguardia en varios benchmarks con fuerte componente perceptiva, incluyendo SAT, CV-Bench, BLINK y MMStar, superando significativamente las líneas base de ajuste fino supervisado y RL basado en texto. Notablemente, nuestros ReVPT-3B y ReVPT-7B superan a los modelos instruct en un 9.03% y 9.44% en CV-Bench. Finalmente, aportamos a la comunidad nuevas perspectivas sobre el uso de herramientas visuales basadas en RL a través de extensas ablaciones. Nuestro código está disponible en https://github.com/ls-kelvin/REVPT.

English

Visual reasoning, a cornerstone of human intelligence, encompasses complex perceptual and logical processes essential for solving diverse visual problems. While advances in computer vision have produced powerful models for various perceptual tasks, leveraging these for general visual reasoning remains challenging. Prior work demonstrates that augmenting LLMs with vision models via supervised finetuning improves performance, but faces key limitations such as expensive data generation, reliance on careful data filtering, and poor generalization. To address these issues, we propose ReVPT to enhance multi-modal LLMs' abilities to reason about and use visual tools through reinforcement learning. We introduce a novel RL algorithm based on GRPO, designed to train models to reason with a suite of four visual tools. Through extensive experiments, we show that our method achieves state-of-the-art performance on several perception-heavy benchmarks, including SAT, CV-Bench, BLINK and MMStar, significantly outperforming the supervised and text-based RL finetuning baselines. Notably, Our ReVPT-3B and ReVPT-7B outperform the instruct models by 9.03% and 9.44% on CV-Bench. Finally, we bring to the community new insights on RL-based visual tool-usage through extensive ablations. Our code is available at https://github.com/ls-kelvin/REVPT.