VisualAgentBench : Vers des modèles multimodaux de grande envergure comme agents fondamentaux visuels
VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents
August 12, 2024
Auteurs: Xiao Liu, Tianjie Zhang, Yu Gu, Iat Long Iong, Yifan Xu, Xixuan Song, Shudan Zhang, Hanyu Lai, Xinyi Liu, Hanlin Zhao, Jiadai Sun, Xinyue Yang, Yu Yang, Zehan Qi, Shuntian Yao, Xueqiao Sun, Siyi Cheng, Qinkai Zheng, Hao Yu, Hanchen Zhang, Wenyi Hong, Ming Ding, Lihang Pan, Xiaotao Gu, Aohan Zeng, Zhengxiao Du, Chan Hee Song, Yu Su, Yuxiao Dong, Jie Tang
cs.AI
Résumé
Les modèles multimodaux de grande taille (LMMs) ont inauguré une nouvelle ère dans l'intelligence artificielle, fusionnant les capacités en langage et en vision pour former des agents visuels fondamentaux hautement performants. Ces agents sont supposés exceller dans une myriade de tâches, approchant potentiellement l'intelligence artificielle générale. Cependant, les benchmarks existants ne parviennent pas à suffisamment défier ou mettre en valeur le plein potentiel des LMMs dans des environnements complexes et réels. Pour combler cette lacune, nous introduisons VisualAgentBench (VAB), un benchmark complet et pionnier spécialement conçu pour entraîner et évaluer les LMMs en tant qu'agents visuels fondamentaux dans divers scénarios, incluant l'Embodied, les interfaces graphiques utilisateur, et le design visuel, avec des tâches formulées pour explorer la profondeur de la compréhension et des capacités d'interaction des LMMs. À travers des tests rigoureux sur neuf API propriétaires de LMMs et huit modèles ouverts, nous démontrons les capacités considérables mais encore en développement de ces modèles en tant qu'agents. De plus, VAB construit un ensemble de données d'entraînement de trajectoire élaboré par des méthodes hybrides incluant des solveurs basés sur des programmes, l'amorçage d'agents LMMs, et des démonstrations humaines, favorisant des améliorations substantielles des performances des LMMs grâce au clonage comportemental. Notre travail vise non seulement à évaluer les modèles existants, mais fournit également une base solide pour le développement futur des agents visuels fondamentaux. Le code, les données d'entraînement et de test, ainsi qu'une partie des LMMs ouverts affinés sont disponibles à l'adresse https://github.com/THUDM/VisualAgentBench.
English
Large Multimodal Models (LMMs) have ushered in a new era in artificial
intelligence, merging capabilities in both language and vision to form highly
capable Visual Foundation Agents. These agents are postulated to excel across a
myriad of tasks, potentially approaching general artificial intelligence.
However, existing benchmarks fail to sufficiently challenge or showcase the
full potential of LMMs in complex, real-world environments. To address this
gap, we introduce VisualAgentBench (VAB), a comprehensive and pioneering
benchmark specifically designed to train and evaluate LMMs as visual foundation
agents across diverse scenarios, including Embodied, Graphical User Interface,
and Visual Design, with tasks formulated to probe the depth of LMMs'
understanding and interaction capabilities. Through rigorous testing across
nine proprietary LMM APIs and eight open models, we demonstrate the
considerable yet still developing agent capabilities of these models.
Additionally, VAB constructs a trajectory training set constructed through
hybrid methods including Program-based Solvers, LMM Agent Bootstrapping, and
Human Demonstrations, promoting substantial performance improvements in LMMs
through behavior cloning. Our work not only aims to benchmark existing models
but also provides a solid foundation for future development into visual
foundation agents. Code, train \& test data, and part of fine-tuned open LMMs
are available at https://github.com/THUDM/VisualAgentBench.Summary
AI-Generated Summary