ChatPaper.aiChatPaper

VisualAgentBench: 대규모 다중 모달 모델을 시각 기반 에이전트로 향하여

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

August 12, 2024
저자: Xiao Liu, Tianjie Zhang, Yu Gu, Iat Long Iong, Yifan Xu, Xixuan Song, Shudan Zhang, Hanyu Lai, Xinyi Liu, Hanlin Zhao, Jiadai Sun, Xinyue Yang, Yu Yang, Zehan Qi, Shuntian Yao, Xueqiao Sun, Siyi Cheng, Qinkai Zheng, Hao Yu, Hanchen Zhang, Wenyi Hong, Ming Ding, Lihang Pan, Xiaotao Gu, Aohan Zeng, Zhengxiao Du, Chan Hee Song, Yu Su, Yuxiao Dong, Jie Tang
cs.AI

초록

대규모 다중 모달 모델(LMMs)은 언어와 시각 능력을 결합하여 매우 능숙한 시각 기반 에이전트를 형성하는 인공 지능의 새로운 시대를 열었습니다. 이러한 에이전트들은 다양한 작업에서 뛰어나다는 가설을 받아 일반적인 인공 지능에 근접할 수 있습니다. 그러나 기존의 벤치마크는 복잡한 현실 환경에서 LMMs의 전체 잠재력을 충분히 도전하거나 보여주지 못합니다. 이러한 공백을 해결하기 위해 우리는 VisualAgentBench (VAB)를 소개합니다. 이는 LMMs를 시각적 기반 에이전트로 훈련하고 평가하기 위해 특별히 설계된 포괄적이고 선도적인 벤치마크로, 이를 통해 LMMs의 이해력과 상호 작용 능력을 탐구하는 작업을 포함한 다양한 시나리오에서 작동합니다. 우리는 9개의 독점 LMM API와 8개의 오픈 모델을 통해 엄격한 테스트를 거쳐, 이러한 모델들의 상당하면서도 계속 발전 중인 에이전트 능력을 증명합니다. 더불어, VAB는 프로그램 기반 솔버, LMM 에이전트 부트스트래핑, 그리고 인간 시연을 포함한 혼합 방법을 통해 구성된 궤적 훈련 세트를 구축하여, 행동 복제를 통해 LMMs의 성능을 상당히 향상시키고 있습니다. 우리의 연구는 기존 모델을 벤치마킹하는 것뿐만 아니라, 미래의 시각적 기반 에이전트로의 발전을 위한 견고한 기반을 제공하는 데 목표를 두고 있습니다. 코드, 훈련 및 테스트 데이터, 그리고 일부 파인튠된 오픈 LMMs는 https://github.com/THUDM/VisualAgentBench에서 제공됩니다.
English
Large Multimodal Models (LMMs) have ushered in a new era in artificial intelligence, merging capabilities in both language and vision to form highly capable Visual Foundation Agents. These agents are postulated to excel across a myriad of tasks, potentially approaching general artificial intelligence. However, existing benchmarks fail to sufficiently challenge or showcase the full potential of LMMs in complex, real-world environments. To address this gap, we introduce VisualAgentBench (VAB), a comprehensive and pioneering benchmark specifically designed to train and evaluate LMMs as visual foundation agents across diverse scenarios, including Embodied, Graphical User Interface, and Visual Design, with tasks formulated to probe the depth of LMMs' understanding and interaction capabilities. Through rigorous testing across nine proprietary LMM APIs and eight open models, we demonstrate the considerable yet still developing agent capabilities of these models. Additionally, VAB constructs a trajectory training set constructed through hybrid methods including Program-based Solvers, LMM Agent Bootstrapping, and Human Demonstrations, promoting substantial performance improvements in LMMs through behavior cloning. Our work not only aims to benchmark existing models but also provides a solid foundation for future development into visual foundation agents. Code, train \& test data, and part of fine-tuned open LMMs are available at https://github.com/THUDM/VisualAgentBench.

Summary

AI-Generated Summary

PDF173November 28, 2024