Визуальное агентное тонкое настройка с подкреплением
Visual Agentic Reinforcement Fine-Tuning
May 20, 2025
Авторы: Ziyu Liu, Yuhang Zang, Yushan Zou, Zijian Liang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI
Аннотация
Ключевой тенденцией в области крупных моделей рассуждений (например, OpenAI o3) является их естественная способность использовать внешние инструменты, такие как веб-браузеры для поиска, а также написание и выполнение кода для манипуляции изображениями, что позволяет им "мыслить" с помощью изображений. В сообществе исследователей, работающих с открытым исходным кодом, хотя значительный прогресс был достигнут в развитии агентских способностей, ограниченных только языком, таких как вызов функций и интеграция инструментов, разработка мультимодальных агентских возможностей, включающих настоящее "мышление" с помощью изображений, и соответствующих бенчмарков, остается менее изученной. Данная работа подчеркивает эффективность визуального агентского усиленного тонкого настройки (Visual-ARFT) для обеспечения гибких и адаптивных способностей рассуждения для крупных визуально-языковых моделей (LVLMs). Благодаря Visual-ARFT, открытые LVLMs получают возможность просматривать веб-сайты для получения актуальной информации и писать код для манипуляции и анализа входных изображений с использованием таких техник, как обрезка, поворот и другие методы обработки изображений. Мы также представляем мультимодальный агентский инструментальный бенчмарк (MAT) с двумя настройками (MAT-Search и MAT-Coding), предназначенный для оценки агентских способностей LVLMs в поиске и написании кода. Наши экспериментальные результаты показывают, что Visual-ARFT превосходит базовый уровень на +18,6% F1 / +13,0% EM в MAT-Coding и на +10,3% F1 / +8,7% EM в MAT-Search, в конечном итоге опережая GPT-4o. Visual-ARFT также демонстрирует улучшение на +29,3% F1 / +25,9% EM на существующих бенчмарках многошаговых вопросов и ответов, таких как 2Wiki и HotpotQA, что свидетельствует о сильных обобщающих способностях. Наши результаты позволяют предположить, что Visual-ARFT предлагает перспективный путь к созданию устойчивых и обобщаемых мультимодальных агентов.
English
A key trend in Large Reasoning Models (e.g., OpenAI's o3) is the native
agentic ability to use external tools such as web browsers for searching and
writing/executing code for image manipulation to think with images. In the
open-source research community, while significant progress has been made in
language-only agentic abilities such as function calling and tool integration,
the development of multi-modal agentic capabilities that involve truly thinking
with images, and their corresponding benchmarks, are still less explored. This
work highlights the effectiveness of Visual Agentic Reinforcement Fine-Tuning
(Visual-ARFT) for enabling flexible and adaptive reasoning abilities for Large
Vision-Language Models (LVLMs). With Visual-ARFT, open-source LVLMs gain the
ability to browse websites for real-time information updates and write code to
manipulate and analyze input images through cropping, rotation, and other image
processing techniques. We also present a Multi-modal Agentic Tool Bench (MAT)
with two settings (MAT-Search and MAT-Coding) designed to evaluate LVLMs'
agentic search and coding abilities. Our experimental results demonstrate that
Visual-ARFT outperforms its baseline by +18.6% F1 / +13.0% EM on MAT-Coding and
+10.3% F1 / +8.7% EM on MAT-Search, ultimately surpassing GPT-4o. Visual-ARFT
also achieves +29.3 F1% / +25.9% EM gains on existing multi-hop QA benchmarks
such as 2Wiki and HotpotQA, demonstrating strong generalization capabilities.
Our findings suggest that Visual-ARFT offers a promising path toward building
robust and generalizable multimodal agents.Summary
AI-Generated Summary