Visuelles Agenten-Reinforcement-Fine-Tuning
Visual Agentic Reinforcement Fine-Tuning
May 20, 2025
Autoren: Ziyu Liu, Yuhang Zang, Yushan Zou, Zijian Liang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI
Zusammenfassung
Ein zentraler Trend bei Large Reasoning Models (z. B. OpenAI's o3) ist die native agentische Fähigkeit, externe Tools wie Webbrowser für die Suche sowie das Schreiben/Ausführen von Code zur Bildmanipulation zu nutzen, um mit Bildern zu denken. In der Open-Source-Forschungsgemeinschaft wurden zwar bedeutende Fortschritte bei rein sprachlichen agentischen Fähigkeiten wie Funktionsaufrufen und Tool-Integration erzielt, doch die Entwicklung multimodaler agentischer Fähigkeiten, die ein echtes Denken mit Bildern beinhalten, sowie die entsprechenden Benchmarks sind noch weniger erforscht. Diese Arbeit hebt die Effektivität von Visual Agentic Reinforcement Fine-Tuning (Visual-ARFT) hervor, um flexible und adaptive Denkfähigkeiten für Large Vision-Language Models (LVLMs) zu ermöglichen. Mit Visual-ARFT erhalten Open-Source-LVLMs die Fähigkeit, Websites für Echtzeit-Informationsaktualisierungen zu durchsuchen und Code zu schreiben, um Eingabebilder durch Zuschneiden, Drehen und andere Bildverarbeitungstechniken zu manipulieren und zu analysieren. Wir stellen außerdem einen Multi-modal Agentic Tool Bench (MAT) mit zwei Einstellungen (MAT-Search und MAT-Coding) vor, der entwickelt wurde, um die agentischen Such- und Programmierfähigkeiten von LVLMs zu bewerten. Unsere experimentellen Ergebnisse zeigen, dass Visual-ARFT seinen Baseline-Wert um +18,6 % F1 / +13,0 % EM bei MAT-Coding und +10,3 % F1 / +8,7 % EM bei MAT-Search übertrifft und letztendlich GPT-4o übertrifft. Visual-ARFT erzielt auch +29,3 % F1 / +25,9 % EM Gewinne bei bestehenden Multi-Hop-QA-Benchmarks wie 2Wiki und HotpotQA, was starke Generalisierungsfähigkeiten demonstriert. Unsere Ergebnisse deuten darauf hin, dass Visual-ARFT einen vielversprechenden Weg zur Entwicklung robuster und generalisierbarer multimodaler Agenten bietet.
English
A key trend in Large Reasoning Models (e.g., OpenAI's o3) is the native
agentic ability to use external tools such as web browsers for searching and
writing/executing code for image manipulation to think with images. In the
open-source research community, while significant progress has been made in
language-only agentic abilities such as function calling and tool integration,
the development of multi-modal agentic capabilities that involve truly thinking
with images, and their corresponding benchmarks, are still less explored. This
work highlights the effectiveness of Visual Agentic Reinforcement Fine-Tuning
(Visual-ARFT) for enabling flexible and adaptive reasoning abilities for Large
Vision-Language Models (LVLMs). With Visual-ARFT, open-source LVLMs gain the
ability to browse websites for real-time information updates and write code to
manipulate and analyze input images through cropping, rotation, and other image
processing techniques. We also present a Multi-modal Agentic Tool Bench (MAT)
with two settings (MAT-Search and MAT-Coding) designed to evaluate LVLMs'
agentic search and coding abilities. Our experimental results demonstrate that
Visual-ARFT outperforms its baseline by +18.6% F1 / +13.0% EM on MAT-Coding and
+10.3% F1 / +8.7% EM on MAT-Search, ultimately surpassing GPT-4o. Visual-ARFT
also achieves +29.3 F1% / +25.9% EM gains on existing multi-hop QA benchmarks
such as 2Wiki and HotpotQA, demonstrating strong generalization capabilities.
Our findings suggest that Visual-ARFT offers a promising path toward building
robust and generalizable multimodal agents.Summary
AI-Generated Summary