VisualToolAgent (VisTA): Um Framework de Aprendizado por Reforço para Seleção de Ferramentas Visuais
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection
May 26, 2025
Autores: Zeyi Huang, Yuyang Ji, Anirudh Sundara Rajan, Zefan Cai, Wen Xiao, Junjie Hu, Yong Jae Lee
cs.AI
Resumo
Apresentamos o VisTA, um novo framework de aprendizado por reforço que capacita agentes visuais a explorar, selecionar e combinar dinamicamente ferramentas de uma biblioteca diversificada com base no desempenho empírico. Os métodos existentes para raciocínio aumentado por ferramentas dependem de prompts sem treinamento ou de ajuste fino em larga escala; ambos carecem de exploração ativa de ferramentas e geralmente assumem diversidade limitada de ferramentas, e os métodos de ajuste fino exigem ainda supervisão humana extensiva. Em contraste, o VisTA utiliza aprendizado por reforço de ponta a ponta para refinar iterativamente estratégias sofisticadas de seleção de ferramentas específicas para consultas, usando os resultados das tarefas como sinais de feedback. Por meio da Otimização de Política Relativa em Grupo (GRPO), nosso framework permite que um agente descubra autonomamente caminhos eficazes de seleção de ferramentas sem exigir supervisão explícita de raciocínio. Experimentos nos benchmarks ChartQA, Geometry3K e BlindTest demonstram que o VisTA alcança ganhos substanciais de desempenho em relação às linhas de base sem treinamento, especialmente em exemplos fora da distribuição. Esses resultados destacam a capacidade do VisTA de aprimorar a generalização, utilizar adaptativamente ferramentas diversas e pavimentar o caminho para sistemas flexíveis de raciocínio visual orientados por experiência.
English
We introduce VisTA, a new reinforcement learning framework that empowers
visual agents to dynamically explore, select, and combine tools from a diverse
library based on empirical performance. Existing methods for tool-augmented
reasoning either rely on training-free prompting or large-scale fine-tuning;
both lack active tool exploration and typically assume limited tool diversity,
and fine-tuning methods additionally demand extensive human supervision. In
contrast, VisTA leverages end-to-end reinforcement learning to iteratively
refine sophisticated, query-specific tool selection strategies, using task
outcomes as feedback signals. Through Group Relative Policy Optimization
(GRPO), our framework enables an agent to autonomously discover effective
tool-selection pathways without requiring explicit reasoning supervision.
Experiments on the ChartQA, Geometry3K, and BlindTest benchmarks demonstrate
that VisTA achieves substantial performance gains over training-free baselines,
especially on out-of-distribution examples. These results highlight VisTA's
ability to enhance generalization, adaptively utilize diverse tools, and pave
the way for flexible, experience-driven visual reasoning systems.