VisualToolAgent (VisTA): Un Framework di Apprendimento per Rinforzo per la Selezione di Strumenti Visivi
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection
May 26, 2025
Autori: Zeyi Huang, Yuyang Ji, Anirudh Sundara Rajan, Zefan Cai, Wen Xiao, Junjie Hu, Yong Jae Lee
cs.AI
Abstract
Presentiamo VisTA, un nuovo framework di apprendimento per rinforzo che consente agli agenti visivi di esplorare, selezionare e combinare dinamicamente strumenti da una libreria diversificata basandosi sulle prestazioni empiriche. I metodi esistenti per il ragionamento potenziato da strumenti si affidano a prompt senza addestramento o a fine-tuning su larga scala; entrambi mancano di un'esplorazione attiva degli strumenti e assumono tipicamente una diversità limitata degli stessi, mentre i metodi di fine-tuning richiedono inoltre un'ampia supervisione umana. Al contrario, VisTA sfrutta l'apprendimento per rinforzo end-to-end per affinare iterativamente strategie sofisticate e specifiche per la selezione degli strumenti, utilizzando i risultati delle attività come segnali di feedback. Attraverso l'ottimizzazione relativa delle politiche di gruppo (GRPO), il nostro framework consente a un agente di scoprire autonomamente percorsi efficaci per la selezione degli strumenti senza richiedere una supervisione esplicita del ragionamento. Gli esperimenti sui benchmark ChartQA, Geometry3K e BlindTest dimostrano che VisTA ottiene significativi miglioramenti delle prestazioni rispetto ai baseline senza addestramento, specialmente su esempi fuori distribuzione. Questi risultati evidenziano la capacità di VisTA di migliorare la generalizzazione, utilizzare in modo adattivo strumenti diversificati e aprire la strada a sistemi di ragionamento visivo flessibili e guidati dall'esperienza.
English
We introduce VisTA, a new reinforcement learning framework that empowers
visual agents to dynamically explore, select, and combine tools from a diverse
library based on empirical performance. Existing methods for tool-augmented
reasoning either rely on training-free prompting or large-scale fine-tuning;
both lack active tool exploration and typically assume limited tool diversity,
and fine-tuning methods additionally demand extensive human supervision. In
contrast, VisTA leverages end-to-end reinforcement learning to iteratively
refine sophisticated, query-specific tool selection strategies, using task
outcomes as feedback signals. Through Group Relative Policy Optimization
(GRPO), our framework enables an agent to autonomously discover effective
tool-selection pathways without requiring explicit reasoning supervision.
Experiments on the ChartQA, Geometry3K, and BlindTest benchmarks demonstrate
that VisTA achieves substantial performance gains over training-free baselines,
especially on out-of-distribution examples. These results highlight VisTA's
ability to enhance generalization, adaptively utilize diverse tools, and pave
the way for flexible, experience-driven visual reasoning systems.