VisualAgentBench: Verso Modelli Multimodali di Grande Scala come Agenti Fondamentali per la Visione

Abstract

I Large Multimodal Models (LMM) hanno inaugurato una nuova era nell'intelligenza artificiale, unendo capacità linguistiche e visive per formare Visual Foundation Agent altamente competenti. Questi agenti sono ritenuti eccellere in una miriade di compiti, avvicinandosi potenzialmente all'intelligenza artificiale generale. Tuttavia, i benchmark esistenti non riescono a mettere sufficientemente alla prova o a mostrare il pieno potenziale degli LMM in ambienti complessi e reali. Per colmare questa lacuna, introduciamo VisualAgentBench (VAB), un benchmark completo e pionieristico progettato specificamente per addestrare e valutare gli LMM come Visual Foundation Agent in scenari diversificati, tra cui Embodied, Graphical User Interface e Visual Design, con compiti formulati per sondare la profondità della comprensione e delle capacità di interazione degli LMM. Attraverso test rigorosi su nove API LMM proprietarie e otto modelli open, dimostriamo le considerevoli ma ancora in via di sviluppo capacità agentive di questi modelli. Inoltre, VAB costruisce un set di addestramento traiettoria attraverso metodi ibridi che includono Program-based Solvers, LMM Agent Bootstrapping e Human Demonstrations, promuovendo miglioramenti significativi delle prestazioni degli LMM attraverso il behavior cloning. Il nostro lavoro non solo mira a valutare i modelli esistenti, ma fornisce anche una solida base per lo sviluppo futuro di Visual Foundation Agent. Codice, dati di addestramento e test, e parte degli LMM open ottimizzati sono disponibili su https://github.com/THUDM/VisualAgentBench.

English

Large Multimodal Models (LMMs) have ushered in a new era in artificial intelligence, merging capabilities in both language and vision to form highly capable Visual Foundation Agents. These agents are postulated to excel across a myriad of tasks, potentially approaching general artificial intelligence. However, existing benchmarks fail to sufficiently challenge or showcase the full potential of LMMs in complex, real-world environments. To address this gap, we introduce VisualAgentBench (VAB), a comprehensive and pioneering benchmark specifically designed to train and evaluate LMMs as visual foundation agents across diverse scenarios, including Embodied, Graphical User Interface, and Visual Design, with tasks formulated to probe the depth of LMMs' understanding and interaction capabilities. Through rigorous testing across nine proprietary LMM APIs and eight open models, we demonstrate the considerable yet still developing agent capabilities of these models. Additionally, VAB constructs a trajectory training set constructed through hybrid methods including Program-based Solvers, LMM Agent Bootstrapping, and Human Demonstrations, promoting substantial performance improvements in LMMs through behavior cloning. Our work not only aims to benchmark existing models but also provides a solid foundation for future development into visual foundation agents. Code, train \& test data, and part of fine-tuned open LMMs are available at https://github.com/THUDM/VisualAgentBench.

VisualAgentBench: Verso Modelli Multimodali di Grande Scala come Agenti Fondamentali per la Visione

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

Abstract

Support