ChatPaper.aiChatPaper

Affinamento Fine-Tuning di Rinforzo Agente Visivo

Visual Agentic Reinforcement Fine-Tuning

May 20, 2025
Autori: Ziyu Liu, Yuhang Zang, Yushan Zou, Zijian Liang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI

Abstract

Una tendenza chiave nei Large Reasoning Models (ad esempio, OpenAI's o3) è la capacità agentica nativa di utilizzare strumenti esterni come browser web per la ricerca e la scrittura/esecuzione di codice per la manipolazione di immagini, consentendo di pensare con le immagini. Nella comunità di ricerca open-source, sebbene siano stati compiuti progressi significativi nelle capacità agentiche basate esclusivamente sul linguaggio, come il richiamo di funzioni e l'integrazione di strumenti, lo sviluppo di capacità agentiche multimodali che coinvolgono un vero e proprio pensiero con le immagini, e i relativi benchmark, sono ancora poco esplorati. Questo lavoro evidenzia l'efficacia del Visual Agentic Reinforcement Fine-Tuning (Visual-ARFT) per abilitare capacità di ragionamento flessibili e adattive nei Large Vision-Language Models (LVLMs). Grazie al Visual-ARFT, i LVLM open-source acquisiscono la capacità di navigare su siti web per aggiornamenti di informazioni in tempo reale e di scrivere codice per manipolare e analizzare immagini in input attraverso tecniche di elaborazione come ritaglio, rotazione e altre. Presentiamo inoltre un Multi-modal Agentic Tool Bench (MAT) con due configurazioni (MAT-Search e MAT-Coding) progettato per valutare le capacità agentiche di ricerca e codifica dei LVLM. I nostri risultati sperimentali dimostrano che il Visual-ARFT supera il suo baseline di +18,6% F1 / +13,0% EM su MAT-Coding e +10,3% F1 / +8,7% EM su MAT-Search, superando infine GPT-4o. Il Visual-ARFT raggiunge anche guadagni di +29,3% F1 / +25,9% EM su benchmark esistenti di QA multi-hop come 2Wiki e HotpotQA, dimostrando forti capacità di generalizzazione. I nostri risultati suggeriscono che il Visual-ARFT offre una strada promettente verso la costruzione di agenti multimodali robusti e generalizzabili.
English
A key trend in Large Reasoning Models (e.g., OpenAI's o3) is the native agentic ability to use external tools such as web browsers for searching and writing/executing code for image manipulation to think with images. In the open-source research community, while significant progress has been made in language-only agentic abilities such as function calling and tool integration, the development of multi-modal agentic capabilities that involve truly thinking with images, and their corresponding benchmarks, are still less explored. This work highlights the effectiveness of Visual Agentic Reinforcement Fine-Tuning (Visual-ARFT) for enabling flexible and adaptive reasoning abilities for Large Vision-Language Models (LVLMs). With Visual-ARFT, open-source LVLMs gain the ability to browse websites for real-time information updates and write code to manipulate and analyze input images through cropping, rotation, and other image processing techniques. We also present a Multi-modal Agentic Tool Bench (MAT) with two settings (MAT-Search and MAT-Coding) designed to evaluate LVLMs' agentic search and coding abilities. Our experimental results demonstrate that Visual-ARFT outperforms its baseline by +18.6% F1 / +13.0% EM on MAT-Coding and +10.3% F1 / +8.7% EM on MAT-Search, ultimately surpassing GPT-4o. Visual-ARFT also achieves +29.3 F1% / +25.9% EM gains on existing multi-hop QA benchmarks such as 2Wiki and HotpotQA, demonstrating strong generalization capabilities. Our findings suggest that Visual-ARFT offers a promising path toward building robust and generalizable multimodal agents.
PDF322May 21, 2025