Visuele Agentische Versterkingsfine-tuning
Visual Agentic Reinforcement Fine-Tuning
May 20, 2025
Auteurs: Ziyu Liu, Yuhang Zang, Yushan Zou, Zijian Liang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI
Samenvatting
Een belangrijke trend in Large Reasoning Models (bijvoorbeeld OpenAI's o3) is de inherente agentische mogelijkheid om externe tools te gebruiken, zoals webbrowsers voor zoeken en het schrijven/uitvoeren van code voor beeldmanipulatie om met afbeeldingen te denken. In de open-source onderzoeksgemeenschap is, hoewel aanzienlijke vooruitgang is geboekt in agentische vaardigheden die alleen op taal zijn gericht, zoals functie-aanroepen en toolintegratie, de ontwikkeling van multimodale agentische capaciteiten die echt met afbeeldingen denken, en hun bijbehorende benchmarks, nog steeds minder onderzocht. Dit werk benadrukt de effectiviteit van Visual Agentic Reinforcement Fine-Tuning (Visual-ARFT) voor het mogelijk maken van flexibele en adaptieve redeneervaardigheden voor Large Vision-Language Models (LVLMs). Met Visual-ARFT krijgen open-source LVLMs de mogelijkheid om websites te browsen voor real-time informatie-updates en code te schrijven om invoerafbeeldingen te manipuleren en te analyseren door middel van bijsnijden, roteren en andere beeldverwerkingstechnieken. We presenteren ook een Multi-modal Agentic Tool Bench (MAT) met twee instellingen (MAT-Search en MAT-Coding) die zijn ontworpen om de agentische zoek- en codeervaardigheden van LVLMs te evalueren. Onze experimentele resultaten tonen aan dat Visual-ARFT zijn baseline overtreft met +18,6% F1 / +13,0% EM op MAT-Coding en +10,3% F1 / +8,7% EM op MAT-Search, en uiteindelijk GPT-4o overstijgt. Visual-ARFT behaalt ook +29,3 F1% / +25,9% EM winst op bestaande multi-hop QA benchmarks zoals 2Wiki en HotpotQA, wat sterke generalisatiecapaciteiten aantoont. Onze bevindingen suggereren dat Visual-ARFT een veelbelovende weg biedt voor het bouwen van robuuste en generaliseerbare multimodale agents.
English
A key trend in Large Reasoning Models (e.g., OpenAI's o3) is the native
agentic ability to use external tools such as web browsers for searching and
writing/executing code for image manipulation to think with images. In the
open-source research community, while significant progress has been made in
language-only agentic abilities such as function calling and tool integration,
the development of multi-modal agentic capabilities that involve truly thinking
with images, and their corresponding benchmarks, are still less explored. This
work highlights the effectiveness of Visual Agentic Reinforcement Fine-Tuning
(Visual-ARFT) for enabling flexible and adaptive reasoning abilities for Large
Vision-Language Models (LVLMs). With Visual-ARFT, open-source LVLMs gain the
ability to browse websites for real-time information updates and write code to
manipulate and analyze input images through cropping, rotation, and other image
processing techniques. We also present a Multi-modal Agentic Tool Bench (MAT)
with two settings (MAT-Search and MAT-Coding) designed to evaluate LVLMs'
agentic search and coding abilities. Our experimental results demonstrate that
Visual-ARFT outperforms its baseline by +18.6% F1 / +13.0% EM on MAT-Coding and
+10.3% F1 / +8.7% EM on MAT-Search, ultimately surpassing GPT-4o. Visual-ARFT
also achieves +29.3 F1% / +25.9% EM gains on existing multi-hop QA benchmarks
such as 2Wiki and HotpotQA, demonstrating strong generalization capabilities.
Our findings suggest that Visual-ARFT offers a promising path toward building
robust and generalizable multimodal agents.Summary
AI-Generated Summary