VisualAgentBench: Naar Grote Multimodale Modellen als Visuele Basisagenten
VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents
August 12, 2024
Auteurs: Xiao Liu, Tianjie Zhang, Yu Gu, Iat Long Iong, Yifan Xu, Xixuan Song, Shudan Zhang, Hanyu Lai, Xinyi Liu, Hanlin Zhao, Jiadai Sun, Xinyue Yang, Yu Yang, Zehan Qi, Shuntian Yao, Xueqiao Sun, Siyi Cheng, Qinkai Zheng, Hao Yu, Hanchen Zhang, Wenyi Hong, Ming Ding, Lihang Pan, Xiaotao Gu, Aohan Zeng, Zhengxiao Du, Chan Hee Song, Yu Su, Yuxiao Dong, Jie Tang
cs.AI
Samenvatting
Grote Multimodale Modellen (LMMs) hebben een nieuw tijdperk ingeluid in de kunstmatige intelligentie, waarbij mogelijkheden op het gebied van taal en visie worden samengevoegd om zeer capabele Visuele Basisagenten te vormen. Deze agenten worden verondersteld uit te blinken in een veelvoud aan taken, waarbij ze mogelijk algemene kunstmatige intelligentie benaderen. Bestaande benchmarks slagen er echter niet in om het volledige potentieel van LMMs in complexe, realistische omgevingen voldoende uit te dagen of te demonstreren. Om dit gat te dichten, introduceren we VisualAgentBench (VAB), een uitgebreide en baanbrekende benchmark die specifiek is ontworpen om LMMs te trainen en te evalueren als visuele basisagenten in diverse scenario's, waaronder Embodied, Grafische Gebruikersinterfaces en Visueel Ontwerp, met taken die zijn geformuleerd om de diepte van het begrip en de interactiemogelijkheden van LMMs te onderzoeken. Door rigoureuze tests uit te voeren op negen propriëtaire LMM-API's en acht open modellen, demonstreren we de aanzienlijke, maar nog steeds ontwikkelende agentmogelijkheden van deze modellen. Daarnaast construeert VAB een trajecttrainingsset die is opgebouwd via hybride methoden, waaronder Programmagebaseerde Oplossers, LMM Agent Bootstrapping en Menselijke Demonstraties, wat aanzienlijke prestatieverbeteringen in LMMs bevordert door middel van gedragsklonering. Ons werk heeft niet alleen als doel om bestaande modellen te benchmarken, maar biedt ook een solide basis voor toekomstige ontwikkeling naar visuele basisagenten. Code, trainings- en testgegevens, en een deel van de fijn afgestelde open LMMs zijn beschikbaar op https://github.com/THUDM/VisualAgentBench.
English
Large Multimodal Models (LMMs) have ushered in a new era in artificial
intelligence, merging capabilities in both language and vision to form highly
capable Visual Foundation Agents. These agents are postulated to excel across a
myriad of tasks, potentially approaching general artificial intelligence.
However, existing benchmarks fail to sufficiently challenge or showcase the
full potential of LMMs in complex, real-world environments. To address this
gap, we introduce VisualAgentBench (VAB), a comprehensive and pioneering
benchmark specifically designed to train and evaluate LMMs as visual foundation
agents across diverse scenarios, including Embodied, Graphical User Interface,
and Visual Design, with tasks formulated to probe the depth of LMMs'
understanding and interaction capabilities. Through rigorous testing across
nine proprietary LMM APIs and eight open models, we demonstrate the
considerable yet still developing agent capabilities of these models.
Additionally, VAB constructs a trajectory training set constructed through
hybrid methods including Program-based Solvers, LMM Agent Bootstrapping, and
Human Demonstrations, promoting substantial performance improvements in LMMs
through behavior cloning. Our work not only aims to benchmark existing models
but also provides a solid foundation for future development into visual
foundation agents. Code, train \& test data, and part of fine-tuned open LMMs
are available at https://github.com/THUDM/VisualAgentBench.