Ajuste Fino de Refuerzo Agéntico Visual
Visual Agentic Reinforcement Fine-Tuning
May 20, 2025
Autores: Ziyu Liu, Yuhang Zang, Yushan Zou, Zijian Liang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI
Resumen
Una tendencia clave en los Modelos de Razonamiento a Gran Escala (por ejemplo, o3 de OpenAI) es la capacidad agéntica nativa de utilizar herramientas externas como navegadores web para buscar y escribir/ejecutar código para la manipulación de imágenes, permitiendo razonar con imágenes. En la comunidad de investigación de código abierto, si bien se ha logrado un progreso significativo en las capacidades agénticas basadas únicamente en lenguaje, como la llamada de funciones y la integración de herramientas, el desarrollo de capacidades agénticas multimodales que involucren un verdadero razonamiento con imágenes, y sus correspondientes puntos de referencia, aún está menos explorado. Este trabajo destaca la efectividad del Ajuste Fino de Refuerzo Agéntico Visual (Visual-ARFT) para habilitar habilidades de razonamiento flexibles y adaptativas en los Modelos de Lenguaje y Visión a Gran Escala (LVLMs). Con Visual-ARFT, los LVLMs de código abierto adquieren la capacidad de navegar por sitios web para obtener actualizaciones de información en tiempo real y escribir código para manipular y analizar imágenes de entrada mediante técnicas de procesamiento de imágenes como recorte, rotación y otras. También presentamos un Banco de Herramientas Agénticas Multimodales (MAT) con dos configuraciones (MAT-Búsqueda y MAT-Codificación) diseñado para evaluar las capacidades agénticas de búsqueda y codificación de los LVLMs. Nuestros resultados experimentales demuestran que Visual-ARFT supera a su línea base en un +18.6% F1 / +13.0% EM en MAT-Codificación y +10.3% F1 / +8.7% EM en MAT-Búsqueda, superando finalmente a GPT-4o. Visual-ARFT también logra ganancias de +29.3% F1 / +25.9% EM en puntos de referencia existentes de preguntas y respuestas de múltiples saltos, como 2Wiki y HotpotQA, demostrando fuertes capacidades de generalización. Nuestros hallazgos sugieren que Visual-ARFT ofrece un camino prometedor hacia la construcción de agentes multimodales robustos y generalizables.
English
A key trend in Large Reasoning Models (e.g., OpenAI's o3) is the native
agentic ability to use external tools such as web browsers for searching and
writing/executing code for image manipulation to think with images. In the
open-source research community, while significant progress has been made in
language-only agentic abilities such as function calling and tool integration,
the development of multi-modal agentic capabilities that involve truly thinking
with images, and their corresponding benchmarks, are still less explored. This
work highlights the effectiveness of Visual Agentic Reinforcement Fine-Tuning
(Visual-ARFT) for enabling flexible and adaptive reasoning abilities for Large
Vision-Language Models (LVLMs). With Visual-ARFT, open-source LVLMs gain the
ability to browse websites for real-time information updates and write code to
manipulate and analyze input images through cropping, rotation, and other image
processing techniques. We also present a Multi-modal Agentic Tool Bench (MAT)
with two settings (MAT-Search and MAT-Coding) designed to evaluate LVLMs'
agentic search and coding abilities. Our experimental results demonstrate that
Visual-ARFT outperforms its baseline by +18.6% F1 / +13.0% EM on MAT-Coding and
+10.3% F1 / +8.7% EM on MAT-Search, ultimately surpassing GPT-4o. Visual-ARFT
also achieves +29.3 F1% / +25.9% EM gains on existing multi-hop QA benchmarks
such as 2Wiki and HotpotQA, demonstrating strong generalization capabilities.
Our findings suggest that Visual-ARFT offers a promising path toward building
robust and generalizable multimodal agents.Summary
AI-Generated Summary