VisualAgentBench: Hacia Modelos Multimodales Grandes como Base Visual para Agentes

Resumen

Los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) han inaugurado una nueva era en la inteligencia artificial, fusionando capacidades tanto en lenguaje como en visión para formar Agentes de Fundamento Visual altamente capaces. Se postula que estos agentes destacarán en una multitud de tareas, potencialmente acercándose a la inteligencia artificial general. Sin embargo, los benchmarks existentes no logran desafiar o mostrar suficientemente el potencial completo de los LMMs en entornos complejos y del mundo real. Para abordar esta brecha, presentamos VisualAgentBench (VAB), un benchmark exhaustivo y pionero diseñado específicamente para entrenar y evaluar LMMs como agentes de fundamento visual en diversos escenarios, incluyendo Encarnados, Interfaz Gráfica de Usuario y Diseño Visual, con tareas formuladas para explorar la profundidad de la comprensión y capacidades de interacción de los LMMs. A través de pruebas rigurosas en nueve APIs de LMM propietarias y ocho modelos abiertos, demostramos las considerables capacidades de los agentes de estos modelos, aunque aún en desarrollo. Además, VAB construye un conjunto de entrenamiento de trayectorias elaborado mediante métodos híbridos que incluyen Solucionadores basados en Programas, Inicialización de Agentes LMM y Demostraciones Humanas, promoviendo mejoras sustanciales en el rendimiento de los LMMs a través de la clonación de comportamiento. Nuestro trabajo no solo tiene como objetivo comparar los modelos existentes, sino que también sienta una base sólida para el desarrollo futuro de agentes de fundamento visual. El código, los datos de entrenamiento y prueba, y parte de los LMMs abiertos ajustados están disponibles en https://github.com/THUDM/VisualAgentBench.

English

Large Multimodal Models (LMMs) have ushered in a new era in artificial intelligence, merging capabilities in both language and vision to form highly capable Visual Foundation Agents. These agents are postulated to excel across a myriad of tasks, potentially approaching general artificial intelligence. However, existing benchmarks fail to sufficiently challenge or showcase the full potential of LMMs in complex, real-world environments. To address this gap, we introduce VisualAgentBench (VAB), a comprehensive and pioneering benchmark specifically designed to train and evaluate LMMs as visual foundation agents across diverse scenarios, including Embodied, Graphical User Interface, and Visual Design, with tasks formulated to probe the depth of LMMs' understanding and interaction capabilities. Through rigorous testing across nine proprietary LMM APIs and eight open models, we demonstrate the considerable yet still developing agent capabilities of these models. Additionally, VAB constructs a trajectory training set constructed through hybrid methods including Program-based Solvers, LMM Agent Bootstrapping, and Human Demonstrations, promoting substantial performance improvements in LMMs through behavior cloning. Our work not only aims to benchmark existing models but also provides a solid foundation for future development into visual foundation agents. Code, train \& test data, and part of fine-tuned open LMMs are available at https://github.com/THUDM/VisualAgentBench.

VisualAgentBench: Hacia Modelos Multimodales Grandes como Base Visual para Agentes

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

Resumen

Support