VisualAgentBench: Rumo a Modelos Multimodais Grandes como Base Visual para Agentes

Resumo

Grandes Modelos Multimodais (LMMs) inauguraram uma nova era na inteligência artificial, combinando capacidades em linguagem e visão para formar Agentes de Fundação Visual altamente capazes. Estes agentes são postulados para se destacarem em uma miríade de tarefas, potencialmente se aproximando da inteligência artificial geral. No entanto, os benchmarks existentes falham em desafiar ou demonstrar suficientemente o potencial total dos LMMs em ambientes complexos do mundo real. Para abordar essa lacuna, apresentamos o VisualAgentBench (VAB), um benchmark abrangente e pioneiro especificamente projetado para treinar e avaliar LMMs como agentes de fundação visual em cenários diversos, incluindo Embodied, Interface Gráfica do Usuário e Design Visual, com tarefas formuladas para sondar a profundidade da compreensão e capacidades de interação dos LMMs. Através de testes rigorosos em nove APIs proprietárias de LMM e oito modelos abertos, demonstramos as consideráveis, porém ainda em desenvolvimento, capacidades dos agentes desses modelos. Além disso, o VAB constrói um conjunto de treinamento de trajetória elaborado por meio de métodos híbridos, incluindo Solucionadores Baseados em Programa, Inicialização de Agentes LMM e Demonstração Humana, promovendo melhorias substanciais de desempenho nos LMMs por meio de clonagem de comportamento. Nosso trabalho não apenas visa avaliar os modelos existentes, mas também fornece uma base sólida para o desenvolvimento futuro de agentes de fundação visual. Código, dados de treinamento e teste, e parte dos LMMs abertos ajustados estão disponíveis em https://github.com/THUDM/VisualAgentBench.

English

Large Multimodal Models (LMMs) have ushered in a new era in artificial intelligence, merging capabilities in both language and vision to form highly capable Visual Foundation Agents. These agents are postulated to excel across a myriad of tasks, potentially approaching general artificial intelligence. However, existing benchmarks fail to sufficiently challenge or showcase the full potential of LMMs in complex, real-world environments. To address this gap, we introduce VisualAgentBench (VAB), a comprehensive and pioneering benchmark specifically designed to train and evaluate LMMs as visual foundation agents across diverse scenarios, including Embodied, Graphical User Interface, and Visual Design, with tasks formulated to probe the depth of LMMs' understanding and interaction capabilities. Through rigorous testing across nine proprietary LMM APIs and eight open models, we demonstrate the considerable yet still developing agent capabilities of these models. Additionally, VAB constructs a trajectory training set constructed through hybrid methods including Program-based Solvers, LMM Agent Bootstrapping, and Human Demonstrations, promoting substantial performance improvements in LMMs through behavior cloning. Our work not only aims to benchmark existing models but also provides a solid foundation for future development into visual foundation agents. Code, train \& test data, and part of fine-tuned open LMMs are available at https://github.com/THUDM/VisualAgentBench.

VisualAgentBench: Rumo a Modelos Multimodais Grandes como Base Visual para Agentes

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

Resumo

Summary

Support

Support