VisualToolAgent (VisTA): Een Reinforcement Learning Framework voor Visuele Toolselectie
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection
May 26, 2025
Auteurs: Zeyi Huang, Yuyang Ji, Anirudh Sundara Rajan, Zefan Cai, Wen Xiao, Junjie Hu, Yong Jae Lee
cs.AI
Samenvatting
We introduceren VisTA, een nieuw reinforcement learning-framework dat visuele agents in staat stelt om dynamisch tools te verkennen, te selecteren en te combineren uit een diverse bibliotheek op basis van empirische prestaties. Bestaande methoden voor tool-augmented reasoning vertrouwen ofwel op training-vrije prompting of op grootschalige fine-tuning; beide ontberen actieve toolverkenning en gaan doorgaans uit van beperkte tooldiversiteit, en fine-tuning-methoden vereisen bovendien uitgebreide menselijke supervisie. In tegenstelling hiermee maakt VisTA gebruik van end-to-end reinforcement learning om iteratief verfijnde, queryspecifieke toolselectiestrategieën te ontwikkelen, waarbij taakresultaten als feedbacksignalen worden gebruikt. Via Group Relative Policy Optimization (GRPO) stelt ons framework een agent in staat om effectieve toolselectiepaden autonoom te ontdekken zonder expliciete redeneersupervisie nodig te hebben. Experimenten op de ChartQA, Geometry3K en BlindTest benchmarks tonen aan dat VisTA aanzienlijke prestatieverbeteringen behaalt ten opzichte van training-vrije baselines, vooral bij out-of-distribution voorbeelden. Deze resultaten onderstrepen het vermogen van VisTA om generalisatie te verbeteren, diverse tools adaptief te benutten en de weg te effenen voor flexibele, ervaringsgedreven visuele redeneersystemen.
English
We introduce VisTA, a new reinforcement learning framework that empowers
visual agents to dynamically explore, select, and combine tools from a diverse
library based on empirical performance. Existing methods for tool-augmented
reasoning either rely on training-free prompting or large-scale fine-tuning;
both lack active tool exploration and typically assume limited tool diversity,
and fine-tuning methods additionally demand extensive human supervision. In
contrast, VisTA leverages end-to-end reinforcement learning to iteratively
refine sophisticated, query-specific tool selection strategies, using task
outcomes as feedback signals. Through Group Relative Policy Optimization
(GRPO), our framework enables an agent to autonomously discover effective
tool-selection pathways without requiring explicit reasoning supervision.
Experiments on the ChartQA, Geometry3K, and BlindTest benchmarks demonstrate
that VisTA achieves substantial performance gains over training-free baselines,
especially on out-of-distribution examples. These results highlight VisTA's
ability to enhance generalization, adaptively utilize diverse tools, and pave
the way for flexible, experience-driven visual reasoning systems.