VisualToolAgent (VisTA): Un Marco de Aprendizaje por Refuerzo para la Selección de Herramientas Visuales
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection
May 26, 2025
Autores: Zeyi Huang, Yuyang Ji, Anirudh Sundara Rajan, Zefan Cai, Wen Xiao, Junjie Hu, Yong Jae Lee
cs.AI
Resumen
Presentamos VisTA, un nuevo marco de aprendizaje por refuerzo que capacita a agentes visuales para explorar, seleccionar y combinar dinámicamente herramientas de una biblioteca diversa basándose en el rendimiento empírico. Los métodos existentes para el razonamiento aumentado con herramientas dependen de técnicas de prompting sin entrenamiento o de ajuste fino a gran escala; ambos carecen de exploración activa de herramientas y suelen asumir una diversidad limitada de estas, y los métodos de ajuste fino además requieren una supervisión humana extensa. En contraste, VisTA aprovecha el aprendizaje por refuerzo de extremo a extremo para refinar iterativamente estrategias sofisticadas de selección de herramientas específicas para cada consulta, utilizando los resultados de las tareas como señales de retroalimentación. A través de la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés), nuestro marco permite que un agente descubra de manera autónoma vías efectivas de selección de herramientas sin requerir supervisión explícita de razonamiento. Los experimentos en los benchmarks ChartQA, Geometry3K y BlindTest demuestran que VisTA logra mejoras sustanciales en el rendimiento en comparación con líneas base sin entrenamiento, especialmente en ejemplos fuera de distribución. Estos resultados resaltan la capacidad de VisTA para mejorar la generalización, utilizar de manera adaptativa diversas herramientas y allanar el camino hacia sistemas de razonamiento visual flexibles y guiados por la experiencia.
English
We introduce VisTA, a new reinforcement learning framework that empowers
visual agents to dynamically explore, select, and combine tools from a diverse
library based on empirical performance. Existing methods for tool-augmented
reasoning either rely on training-free prompting or large-scale fine-tuning;
both lack active tool exploration and typically assume limited tool diversity,
and fine-tuning methods additionally demand extensive human supervision. In
contrast, VisTA leverages end-to-end reinforcement learning to iteratively
refine sophisticated, query-specific tool selection strategies, using task
outcomes as feedback signals. Through Group Relative Policy Optimization
(GRPO), our framework enables an agent to autonomously discover effective
tool-selection pathways without requiring explicit reasoning supervision.
Experiments on the ChartQA, Geometry3K, and BlindTest benchmarks demonstrate
that VisTA achieves substantial performance gains over training-free baselines,
especially on out-of-distribution examples. These results highlight VisTA's
ability to enhance generalization, adaptively utilize diverse tools, and pave
the way for flexible, experience-driven visual reasoning systems.Summary
AI-Generated Summary