VisualToolAgent (VisTA): Ein Reinforcement-Learning-Framework zur visuellen Werkzeugauswahl
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection
May 26, 2025
Autoren: Zeyi Huang, Yuyang Ji, Anirudh Sundara Rajan, Zefan Cai, Wen Xiao, Junjie Hu, Yong Jae Lee
cs.AI
Zusammenfassung
Wir stellen VisTA vor, ein neues Reinforcement-Learning-Framework, das visuelle Agenten befähigt, Werkzeuge aus einer vielfältigen Bibliothek dynamisch zu erkunden, auszuwählen und zu kombinieren, basierend auf empirischer Leistung. Bestehende Methoden für werkzeuggestütztes Denken verlassen sich entweder auf trainingsfreie Prompting-Techniken oder groß angelegtes Fine-Tuning; beiden Ansätzen fehlt die aktive Werkzeugexploration, und sie gehen typischerweise von begrenzter Werkzeugvielfalt aus, während Fine-Tuning-Methoden zusätzlich umfangreiche menschliche Aufsicht erfordern. Im Gegensatz dazu nutzt VisTA end-to-end Reinforcement Learning, um iterativ anspruchsvolle, abfragespezifische Werkzeugauswahlstrategien zu verfeinern, wobei Aufgabenresultate als Feedback-Signale dienen. Durch Group Relative Policy Optimization (GRPO) ermöglicht unser Framework einem Agenten, effektive Werkzeugauswahlpfade autonom zu entdecken, ohne explizite Denküberwachung zu benötigen. Experimente auf den Benchmarks ChartQA, Geometry3K und BlindTest zeigen, dass VisTA erhebliche Leistungssteigerungen gegenüber trainingsfreien Baselines erzielt, insbesondere bei Out-of-Distribution-Beispielen. Diese Ergebnisse unterstreichen VisTAs Fähigkeit, die Generalisierung zu verbessern, diverse Werkzeuge adaptiv zu nutzen und den Weg für flexible, erfahrungsgetriebene visuelle Denksysteme zu ebnen.
English
We introduce VisTA, a new reinforcement learning framework that empowers
visual agents to dynamically explore, select, and combine tools from a diverse
library based on empirical performance. Existing methods for tool-augmented
reasoning either rely on training-free prompting or large-scale fine-tuning;
both lack active tool exploration and typically assume limited tool diversity,
and fine-tuning methods additionally demand extensive human supervision. In
contrast, VisTA leverages end-to-end reinforcement learning to iteratively
refine sophisticated, query-specific tool selection strategies, using task
outcomes as feedback signals. Through Group Relative Policy Optimization
(GRPO), our framework enables an agent to autonomously discover effective
tool-selection pathways without requiring explicit reasoning supervision.
Experiments on the ChartQA, Geometry3K, and BlindTest benchmarks demonstrate
that VisTA achieves substantial performance gains over training-free baselines,
especially on out-of-distribution examples. These results highlight VisTA's
ability to enhance generalization, adaptively utilize diverse tools, and pave
the way for flexible, experience-driven visual reasoning systems.Summary
AI-Generated Summary