Affinamento Fine-Tuning di Rinforzo Agente Visivo

Abstract

Una tendenza chiave nei Large Reasoning Models (ad esempio, OpenAI's o3) è la capacità agentica nativa di utilizzare strumenti esterni come browser web per la ricerca e la scrittura/esecuzione di codice per la manipolazione di immagini, consentendo di pensare con le immagini. Nella comunità di ricerca open-source, sebbene siano stati compiuti progressi significativi nelle capacità agentiche basate esclusivamente sul linguaggio, come il richiamo di funzioni e l'integrazione di strumenti, lo sviluppo di capacità agentiche multimodali che coinvolgono un vero e proprio pensiero con le immagini, e i relativi benchmark, sono ancora poco esplorati. Questo lavoro evidenzia l'efficacia del Visual Agentic Reinforcement Fine-Tuning (Visual-ARFT) per abilitare capacità di ragionamento flessibili e adattive nei Large Vision-Language Models (LVLMs). Grazie al Visual-ARFT, i LVLM open-source acquisiscono la capacità di navigare su siti web per aggiornamenti di informazioni in tempo reale e di scrivere codice per manipolare e analizzare immagini in input attraverso tecniche di elaborazione come ritaglio, rotazione e altre. Presentiamo inoltre un Multi-modal Agentic Tool Bench (MAT) con due configurazioni (MAT-Search e MAT-Coding) progettato per valutare le capacità agentiche di ricerca e codifica dei LVLM. I nostri risultati sperimentali dimostrano che il Visual-ARFT supera il suo baseline di +18,6% F1 / +13,0% EM su MAT-Coding e +10,3% F1 / +8,7% EM su MAT-Search, superando infine GPT-4o. Il Visual-ARFT raggiunge anche guadagni di +29,3% F1 / +25,9% EM su benchmark esistenti di QA multi-hop come 2Wiki e HotpotQA, dimostrando forti capacità di generalizzazione. I nostri risultati suggeriscono che il Visual-ARFT offre una strada promettente verso la costruzione di agenti multimodali robusti e generalizzabili.

English

A key trend in Large Reasoning Models (e.g., OpenAI's o3) is the native agentic ability to use external tools such as web browsers for searching and writing/executing code for image manipulation to think with images. In the open-source research community, while significant progress has been made in language-only agentic abilities such as function calling and tool integration, the development of multi-modal agentic capabilities that involve truly thinking with images, and their corresponding benchmarks, are still less explored. This work highlights the effectiveness of Visual Agentic Reinforcement Fine-Tuning (Visual-ARFT) for enabling flexible and adaptive reasoning abilities for Large Vision-Language Models (LVLMs). With Visual-ARFT, open-source LVLMs gain the ability to browse websites for real-time information updates and write code to manipulate and analyze input images through cropping, rotation, and other image processing techniques. We also present a Multi-modal Agentic Tool Bench (MAT) with two settings (MAT-Search and MAT-Coding) designed to evaluate LVLMs' agentic search and coding abilities. Our experimental results demonstrate that Visual-ARFT outperforms its baseline by +18.6% F1 / +13.0% EM on MAT-Coding and +10.3% F1 / +8.7% EM on MAT-Search, ultimately surpassing GPT-4o. Visual-ARFT also achieves +29.3 F1% / +25.9% EM gains on existing multi-hop QA benchmarks such as 2Wiki and HotpotQA, demonstrating strong generalization capabilities. Our findings suggest that Visual-ARFT offers a promising path toward building robust and generalizable multimodal agents.