視覚的エージェント強化学習ファインチューニング
Visual Agentic Reinforcement Fine-Tuning
May 20, 2025
著者: Ziyu Liu, Yuhang Zang, Yushan Zou, Zijian Liang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI
要旨
大規模推論モデル(例:OpenAIのo3)における重要なトレンドの一つは、外部ツールをネイティブに活用するエージェント能力です。これには、ウェブブラウザを使用した検索や、画像操作のためのコードの記述・実行を通じて、画像を用いて思考する能力が含まれます。オープンソースの研究コミュニティでは、関数呼び出しやツール統合といった言語のみに焦点を当てたエージェント能力においては大きな進展が見られるものの、画像を用いた真のマルチモーダルなエージェント能力とそのベンチマークの開発は、まだ十分に探求されていません。本研究では、大規模視覚言語モデル(LVLM)に対して柔軟で適応的な推論能力を可能にする「Visual Agentic Reinforcement Fine-Tuning(Visual-ARFT)」の有効性を強調します。Visual-ARFTにより、オープンソースのLVLMは、リアルタイムの情報更新のためにウェブサイトを閲覧し、入力画像を切り抜き、回転、その他の画像処理技術を通じて操作・分析するコードを記述する能力を獲得します。また、LVLMのエージェント的な検索能力とコーディング能力を評価するために設計された「Multi-modal Agentic Tool Bench(MAT)」を、MAT-SearchとMAT-Codingの2つの設定で提示します。実験結果は、Visual-ARFTがMAT-Codingにおいてベースラインを+18.6% F1 / +13.0% EM、MAT-Searchにおいて+10.3% F1 / +8.7% EMで上回り、最終的にGPT-4oを凌駕することを示しています。さらに、Visual-ARFTは2WikiやHotpotQAといった既存のマルチホップQAベンチマークにおいても+29.3% F1 / +25.9% EMの向上を達成し、強力な汎化能力を示しています。これらの発見は、Visual-ARFTがロバストで汎化可能なマルチモーダルエージェントを構築するための有望な道筋を提供することを示唆しています。
English
A key trend in Large Reasoning Models (e.g., OpenAI's o3) is the native
agentic ability to use external tools such as web browsers for searching and
writing/executing code for image manipulation to think with images. In the
open-source research community, while significant progress has been made in
language-only agentic abilities such as function calling and tool integration,
the development of multi-modal agentic capabilities that involve truly thinking
with images, and their corresponding benchmarks, are still less explored. This
work highlights the effectiveness of Visual Agentic Reinforcement Fine-Tuning
(Visual-ARFT) for enabling flexible and adaptive reasoning abilities for Large
Vision-Language Models (LVLMs). With Visual-ARFT, open-source LVLMs gain the
ability to browse websites for real-time information updates and write code to
manipulate and analyze input images through cropping, rotation, and other image
processing techniques. We also present a Multi-modal Agentic Tool Bench (MAT)
with two settings (MAT-Search and MAT-Coding) designed to evaluate LVLMs'
agentic search and coding abilities. Our experimental results demonstrate that
Visual-ARFT outperforms its baseline by +18.6% F1 / +13.0% EM on MAT-Coding and
+10.3% F1 / +8.7% EM on MAT-Search, ultimately surpassing GPT-4o. Visual-ARFT
also achieves +29.3 F1% / +25.9% EM gains on existing multi-hop QA benchmarks
such as 2Wiki and HotpotQA, demonstrating strong generalization capabilities.
Our findings suggest that Visual-ARFT offers a promising path toward building
robust and generalizable multimodal agents.Summary
AI-Generated Summary