VisualAgentBench: Auf dem Weg zu großen multimodalen Modellen als visuelle Grundlage für Agenten
VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents
August 12, 2024
papers.authors: Xiao Liu, Tianjie Zhang, Yu Gu, Iat Long Iong, Yifan Xu, Xixuan Song, Shudan Zhang, Hanyu Lai, Xinyi Liu, Hanlin Zhao, Jiadai Sun, Xinyue Yang, Yu Yang, Zehan Qi, Shuntian Yao, Xueqiao Sun, Siyi Cheng, Qinkai Zheng, Hao Yu, Hanchen Zhang, Wenyi Hong, Ming Ding, Lihang Pan, Xiaotao Gu, Aohan Zeng, Zhengxiao Du, Chan Hee Song, Yu Su, Yuxiao Dong, Jie Tang
cs.AI
papers.abstract
Große multimodale Modelle (LMMs) haben eine neue Ära in der künstlichen Intelligenz eingeläutet, indem sie Fähigkeiten in Sprache und Vision vereinen, um äußerst leistungsfähige visuelle Grundlagenagenten zu bilden. Diese Agenten sollen in der Lage sein, in einer Vielzahl von Aufgaben herausragende Leistungen zu erbringen und möglicherweise der allgemeinen künstlichen Intelligenz nahekommen. Allerdings versagen bestehende Benchmarks darin, LMMs in komplexen realen Umgebungen ausreichend herauszufordern oder ihr volles Potenzial zu präsentieren. Um diese Lücke zu schließen, führen wir VisualAgentBench (VAB) ein, einen umfassenden und wegweisenden Benchmark, der speziell entwickelt wurde, um LMMs als visuelle Grundlagenagenten in verschiedenen Szenarien zu trainieren und zu bewerten, darunter Embodied, Graphical User Interface und Visual Design, mit Aufgaben, die die Tiefe des Verständnisses und der Interaktionsfähigkeiten von LMMs untersuchen sollen. Durch rigorose Tests mit neun proprietären LMM-APIs und acht offenen Modellen zeigen wir die beträchtlichen, aber noch in Entwicklung befindlichen Fähigkeiten dieser Modelle auf. Darüber hinaus erstellt VAB einen Trajektorien-Trainingsdatensatz, der durch hybride Methoden wie Programmbasierte Solver, LMM-Agenten-Bootstrapping und menschliche Demonstrationen erstellt wurde, um signifikante Leistungsverbesserungen in LMMs durch Verhaltensklonierung zu fördern. Unsere Arbeit zielt nicht nur darauf ab, bestehende Modelle zu benchmarken, sondern auch eine solide Grundlage für zukünftige Entwicklungen im Bereich visueller Grundlagenagenten zu schaffen. Der Code, Trainings- und Testdaten sowie Teile von feinabgestimmten offenen LMMs sind unter https://github.com/THUDM/VisualAgentBench verfügbar.
English
Large Multimodal Models (LMMs) have ushered in a new era in artificial
intelligence, merging capabilities in both language and vision to form highly
capable Visual Foundation Agents. These agents are postulated to excel across a
myriad of tasks, potentially approaching general artificial intelligence.
However, existing benchmarks fail to sufficiently challenge or showcase the
full potential of LMMs in complex, real-world environments. To address this
gap, we introduce VisualAgentBench (VAB), a comprehensive and pioneering
benchmark specifically designed to train and evaluate LMMs as visual foundation
agents across diverse scenarios, including Embodied, Graphical User Interface,
and Visual Design, with tasks formulated to probe the depth of LMMs'
understanding and interaction capabilities. Through rigorous testing across
nine proprietary LMM APIs and eight open models, we demonstrate the
considerable yet still developing agent capabilities of these models.
Additionally, VAB constructs a trajectory training set constructed through
hybrid methods including Program-based Solvers, LMM Agent Bootstrapping, and
Human Demonstrations, promoting substantial performance improvements in LMMs
through behavior cloning. Our work not only aims to benchmark existing models
but also provides a solid foundation for future development into visual
foundation agents. Code, train \& test data, and part of fine-tuned open LMMs
are available at https://github.com/THUDM/VisualAgentBench.