ChatPaper.aiChatPaper

VisualToolAgent (VisTA): Фреймворк обучения с подкреплением для выбора визуальных инструментов

VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection

May 26, 2025
Авторы: Zeyi Huang, Yuyang Ji, Anirudh Sundara Rajan, Zefan Cai, Wen Xiao, Junjie Hu, Yong Jae Lee
cs.AI

Аннотация

Мы представляем VisTA, новый фреймворк обучения с подкреплением, который позволяет визуальным агентам динамически исследовать, выбирать и комбинировать инструменты из разнообразной библиотеки на основе эмпирической производительности. Существующие методы для рассуждений с использованием инструментов либо полагаются на обучение без тренировки (training-free prompting), либо на крупномасштабную тонкую настройку (fine-tuning); оба подхода не предусматривают активного исследования инструментов и обычно предполагают ограниченное разнообразие инструментов, а методы тонкой настройки дополнительно требуют значительного человеческого контроля. В отличие от них, VisTA использует сквозное обучение с подкреплением для итеративного уточнения сложных стратегий выбора инструментов, специфичных для запроса, используя результаты задач в качестве сигналов обратной связи. Благодаря оптимизации групповой относительной политики (Group Relative Policy Optimization, GRPO), наш фреймворк позволяет агенту автономно находить эффективные пути выбора инструментов без необходимости явного контроля за рассуждениями. Эксперименты на бенчмарках ChartQA, Geometry3K и BlindTest демонстрируют, что VisTA достигает значительного улучшения производительности по сравнению с базовыми методами без обучения, особенно на примерах, выходящих за пределы распределения данных. Эти результаты подчеркивают способность VisTA улучшать обобщение, адаптивно использовать разнообразные инструменты и прокладывать путь к гибким системам визуального рассуждения, основанным на опыте.
English
We introduce VisTA, a new reinforcement learning framework that empowers visual agents to dynamically explore, select, and combine tools from a diverse library based on empirical performance. Existing methods for tool-augmented reasoning either rely on training-free prompting or large-scale fine-tuning; both lack active tool exploration and typically assume limited tool diversity, and fine-tuning methods additionally demand extensive human supervision. In contrast, VisTA leverages end-to-end reinforcement learning to iteratively refine sophisticated, query-specific tool selection strategies, using task outcomes as feedback signals. Through Group Relative Policy Optimization (GRPO), our framework enables an agent to autonomously discover effective tool-selection pathways without requiring explicit reasoning supervision. Experiments on the ChartQA, Geometry3K, and BlindTest benchmarks demonstrate that VisTA achieves substantial performance gains over training-free baselines, especially on out-of-distribution examples. These results highlight VisTA's ability to enhance generalization, adaptively utilize diverse tools, and pave the way for flexible, experience-driven visual reasoning systems.

Summary

AI-Generated Summary

PDF92May 28, 2025