Réglage Fin par Renforcement Agentique Visuel
Visual Agentic Reinforcement Fine-Tuning
May 20, 2025
Auteurs: Ziyu Liu, Yuhang Zang, Yushan Zou, Zijian Liang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI
Résumé
Une tendance clé dans les modèles de raisonnement à grande échelle (par exemple, o3 d'OpenAI) est leur capacité agentique native à utiliser des outils externes tels que des navigateurs web pour rechercher et écrire/exécuter du code destiné à manipuler des images, permettant ainsi de penser avec des images. Dans la communauté de recherche open source, bien que des progrès significatifs aient été réalisés dans les capacités agentiques basées uniquement sur le langage, comme l'appel de fonctions et l'intégration d'outils, le développement de capacités agentiques multimodales impliquant une véritable pensée avec des images, ainsi que leurs benchmarks correspondants, restent moins explorés. Ce travail met en lumière l'efficacité du Fine-Tuning par Renforcement Agentique Visuel (Visual-ARFT) pour permettre des capacités de raisonnement flexibles et adaptatives aux grands modèles vision-langage (LVLMs). Grâce à Visual-ARFT, les LVLMs open source acquièrent la capacité de naviguer sur des sites web pour obtenir des informations en temps réel et d'écrire du code pour manipuler et analyser des images d'entrée via des techniques de traitement d'images telles que le recadrage, la rotation, etc. Nous présentons également un banc d'essai d'outils agentiques multimodaux (MAT) avec deux configurations (MAT-Search et MAT-Coding) conçues pour évaluer les capacités agentiques de recherche et de codage des LVLMs. Nos résultats expérimentaux montrent que Visual-ARFT surpasse son modèle de référence de +18,6 % F1 / +13,0 % EM sur MAT-Coding et de +10,3 % F1 / +8,7 % EM sur MAT-Search, dépassant finalement GPT-4o. Visual-ARFT obtient également des gains de +29,3 % F1 / +25,9 % EM sur des benchmarks existants de questions-réponses multi-sauts tels que 2Wiki et HotpotQA, démontrant de solides capacités de généralisation. Nos résultats suggèrent que Visual-ARFT offre une voie prometteuse pour construire des agents multimodaux robustes et généralisables.
English
A key trend in Large Reasoning Models (e.g., OpenAI's o3) is the native
agentic ability to use external tools such as web browsers for searching and
writing/executing code for image manipulation to think with images. In the
open-source research community, while significant progress has been made in
language-only agentic abilities such as function calling and tool integration,
the development of multi-modal agentic capabilities that involve truly thinking
with images, and their corresponding benchmarks, are still less explored. This
work highlights the effectiveness of Visual Agentic Reinforcement Fine-Tuning
(Visual-ARFT) for enabling flexible and adaptive reasoning abilities for Large
Vision-Language Models (LVLMs). With Visual-ARFT, open-source LVLMs gain the
ability to browse websites for real-time information updates and write code to
manipulate and analyze input images through cropping, rotation, and other image
processing techniques. We also present a Multi-modal Agentic Tool Bench (MAT)
with two settings (MAT-Search and MAT-Coding) designed to evaluate LVLMs'
agentic search and coding abilities. Our experimental results demonstrate that
Visual-ARFT outperforms its baseline by +18.6% F1 / +13.0% EM on MAT-Coding and
+10.3% F1 / +8.7% EM on MAT-Search, ultimately surpassing GPT-4o. Visual-ARFT
also achieves +29.3 F1% / +25.9% EM gains on existing multi-hop QA benchmarks
such as 2Wiki and HotpotQA, demonstrating strong generalization capabilities.
Our findings suggest that Visual-ARFT offers a promising path toward building
robust and generalizable multimodal agents.Summary
AI-Generated Summary