Ajuste Fino de Reforço Agente Visual
Visual Agentic Reinforcement Fine-Tuning
May 20, 2025
Autores: Ziyu Liu, Yuhang Zang, Yushan Zou, Zijian Liang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI
Resumo
Uma tendência importante nos Modelos de Raciocínio de Grande Escala (por exemplo, o o3 da OpenAI) é a capacidade agentiva nativa de utilizar ferramentas externas, como navegadores da web para pesquisa e escrita/execução de código para manipulação de imagens, permitindo pensar com imagens. Na comunidade de pesquisa de código aberto, embora progressos significativos tenham sido feitos em habilidades agentivas exclusivamente baseadas em linguagem, como chamadas de função e integração de ferramentas, o desenvolvimento de capacidades agentivas multimodais que envolvem verdadeiramente pensar com imagens, e seus benchmarks correspondentes, ainda são menos explorados. Este trabalho destaca a eficácia do Ajuste Fino por Reforço Agentivo Visual (Visual-ARFT) para habilitar habilidades de raciocínio flexíveis e adaptativas em Modelos de Linguagem e Visão de Grande Escala (LVLMs). Com o Visual-ARFT, LVLMs de código aberto ganham a capacidade de navegar em sites para atualizações de informações em tempo real e escrever código para manipular e analisar imagens de entrada por meio de técnicas como recorte, rotação e outros métodos de processamento de imagens. Também apresentamos um Banco de Ferramentas Agentivas Multimodais (MAT) com duas configurações (MAT-Search e MAT-Coding) projetadas para avaliar as habilidades agentivas de pesquisa e codificação dos LVLMs. Nossos resultados experimentais demonstram que o Visual-ARFT supera sua linha de base em +18,6% F1 / +13,0% EM no MAT-Coding e +10,3% F1 / +8,7% EM no MAT-Search, ultrapassando o GPT-4o. O Visual-ARFT também alcança ganhos de +29,3% F1 / +25,9% EM em benchmarks existentes de QA multihop, como 2Wiki e HotpotQA, demonstrando fortes capacidades de generalização. Nossas descobertas sugerem que o Visual-ARFT oferece um caminho promissor para a construção de agentes multimodais robustos e generalizáveis.
English
A key trend in Large Reasoning Models (e.g., OpenAI's o3) is the native
agentic ability to use external tools such as web browsers for searching and
writing/executing code for image manipulation to think with images. In the
open-source research community, while significant progress has been made in
language-only agentic abilities such as function calling and tool integration,
the development of multi-modal agentic capabilities that involve truly thinking
with images, and their corresponding benchmarks, are still less explored. This
work highlights the effectiveness of Visual Agentic Reinforcement Fine-Tuning
(Visual-ARFT) for enabling flexible and adaptive reasoning abilities for Large
Vision-Language Models (LVLMs). With Visual-ARFT, open-source LVLMs gain the
ability to browse websites for real-time information updates and write code to
manipulate and analyze input images through cropping, rotation, and other image
processing techniques. We also present a Multi-modal Agentic Tool Bench (MAT)
with two settings (MAT-Search and MAT-Coding) designed to evaluate LVLMs'
agentic search and coding abilities. Our experimental results demonstrate that
Visual-ARFT outperforms its baseline by +18.6% F1 / +13.0% EM on MAT-Coding and
+10.3% F1 / +8.7% EM on MAT-Search, ultimately surpassing GPT-4o. Visual-ARFT
also achieves +29.3 F1% / +25.9% EM gains on existing multi-hop QA benchmarks
such as 2Wiki and HotpotQA, demonstrating strong generalization capabilities.
Our findings suggest that Visual-ARFT offers a promising path toward building
robust and generalizable multimodal agents.