VisualToolAgent (VisTA) : Un cadre d'apprentissage par renforcement pour la sélection d'outils visuels
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection
May 26, 2025
Auteurs: Zeyi Huang, Yuyang Ji, Anirudh Sundara Rajan, Zefan Cai, Wen Xiao, Junjie Hu, Yong Jae Lee
cs.AI
Résumé
Nous présentons VisTA, un nouveau cadre d'apprentissage par renforcement qui permet à des agents visuels d'explorer, de sélectionner et de combiner dynamiquement des outils issus d'une bibliothèque diversifiée en fonction de leurs performances empiriques. Les méthodes existantes pour le raisonnement assisté par outils reposent soit sur des techniques de prompt sans entraînement, soit sur un ajustement à grande échelle ; ces approches manquent d'exploration active des outils et supposent généralement une diversité limitée des outils, tandis que les méthodes d'ajustement nécessitent en plus une supervision humaine intensive. En revanche, VisTA exploite l'apprentissage par renforcement de bout en bout pour affiner de manière itérative des stratégies sophistiquées de sélection d'outils spécifiques à chaque requête, en utilisant les résultats des tâches comme signaux de rétroaction. Grâce à l'Optimisation Relative des Politiques de Groupe (GRPO), notre cadre permet à un agent de découvrir de manière autonome des voies efficaces de sélection d'outils sans nécessiter de supervision explicite du raisonnement. Les expériences menées sur les benchmarks ChartQA, Geometry3K et BlindTest démontrent que VisTA obtient des gains de performance substantiels par rapport aux méthodes de base sans entraînement, en particulier sur des exemples hors distribution. Ces résultats mettent en évidence la capacité de VisTA à améliorer la généralisation, à utiliser de manière adaptative des outils diversifiés, et à ouvrir la voie à des systèmes de raisonnement visuel flexibles et guidés par l'expérience.
English
We introduce VisTA, a new reinforcement learning framework that empowers
visual agents to dynamically explore, select, and combine tools from a diverse
library based on empirical performance. Existing methods for tool-augmented
reasoning either rely on training-free prompting or large-scale fine-tuning;
both lack active tool exploration and typically assume limited tool diversity,
and fine-tuning methods additionally demand extensive human supervision. In
contrast, VisTA leverages end-to-end reinforcement learning to iteratively
refine sophisticated, query-specific tool selection strategies, using task
outcomes as feedback signals. Through Group Relative Policy Optimization
(GRPO), our framework enables an agent to autonomously discover effective
tool-selection pathways without requiring explicit reasoning supervision.
Experiments on the ChartQA, Geometry3K, and BlindTest benchmarks demonstrate
that VisTA achieves substantial performance gains over training-free baselines,
especially on out-of-distribution examples. These results highlight VisTA's
ability to enhance generalization, adaptively utilize diverse tools, and pave
the way for flexible, experience-driven visual reasoning systems.Summary
AI-Generated Summary