VisualAgentBench: Hacia Modelos Multimodales Grandes como Base Visual para Agentes
VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents
August 12, 2024
Autores: Xiao Liu, Tianjie Zhang, Yu Gu, Iat Long Iong, Yifan Xu, Xixuan Song, Shudan Zhang, Hanyu Lai, Xinyi Liu, Hanlin Zhao, Jiadai Sun, Xinyue Yang, Yu Yang, Zehan Qi, Shuntian Yao, Xueqiao Sun, Siyi Cheng, Qinkai Zheng, Hao Yu, Hanchen Zhang, Wenyi Hong, Ming Ding, Lihang Pan, Xiaotao Gu, Aohan Zeng, Zhengxiao Du, Chan Hee Song, Yu Su, Yuxiao Dong, Jie Tang
cs.AI
Resumen
Los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) han inaugurado una nueva era en la inteligencia artificial, fusionando capacidades tanto en lenguaje como en visión para formar Agentes de Fundamento Visual altamente capaces. Se postula que estos agentes destacarán en una multitud de tareas, potencialmente acercándose a la inteligencia artificial general. Sin embargo, los benchmarks existentes no logran desafiar o mostrar suficientemente el potencial completo de los LMMs en entornos complejos y del mundo real. Para abordar esta brecha, presentamos VisualAgentBench (VAB), un benchmark exhaustivo y pionero diseñado específicamente para entrenar y evaluar LMMs como agentes de fundamento visual en diversos escenarios, incluyendo Encarnados, Interfaz Gráfica de Usuario y Diseño Visual, con tareas formuladas para explorar la profundidad de la comprensión y capacidades de interacción de los LMMs. A través de pruebas rigurosas en nueve APIs de LMM propietarias y ocho modelos abiertos, demostramos las considerables capacidades de los agentes de estos modelos, aunque aún en desarrollo. Además, VAB construye un conjunto de entrenamiento de trayectorias elaborado mediante métodos híbridos que incluyen Solucionadores basados en Programas, Inicialización de Agentes LMM y Demostraciones Humanas, promoviendo mejoras sustanciales en el rendimiento de los LMMs a través de la clonación de comportamiento. Nuestro trabajo no solo tiene como objetivo comparar los modelos existentes, sino que también sienta una base sólida para el desarrollo futuro de agentes de fundamento visual. El código, los datos de entrenamiento y prueba, y parte de los LMMs abiertos ajustados están disponibles en https://github.com/THUDM/VisualAgentBench.
English
Large Multimodal Models (LMMs) have ushered in a new era in artificial
intelligence, merging capabilities in both language and vision to form highly
capable Visual Foundation Agents. These agents are postulated to excel across a
myriad of tasks, potentially approaching general artificial intelligence.
However, existing benchmarks fail to sufficiently challenge or showcase the
full potential of LMMs in complex, real-world environments. To address this
gap, we introduce VisualAgentBench (VAB), a comprehensive and pioneering
benchmark specifically designed to train and evaluate LMMs as visual foundation
agents across diverse scenarios, including Embodied, Graphical User Interface,
and Visual Design, with tasks formulated to probe the depth of LMMs'
understanding and interaction capabilities. Through rigorous testing across
nine proprietary LMM APIs and eight open models, we demonstrate the
considerable yet still developing agent capabilities of these models.
Additionally, VAB constructs a trajectory training set constructed through
hybrid methods including Program-based Solvers, LMM Agent Bootstrapping, and
Human Demonstrations, promoting substantial performance improvements in LMMs
through behavior cloning. Our work not only aims to benchmark existing models
but also provides a solid foundation for future development into visual
foundation agents. Code, train \& test data, and part of fine-tuned open LMMs
are available at https://github.com/THUDM/VisualAgentBench.Summary
AI-Generated Summary