VisualAgentBench: Путь к созданию крупных мультимодальных моделей как визуальных основ агентов
VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents
August 12, 2024
Авторы: Xiao Liu, Tianjie Zhang, Yu Gu, Iat Long Iong, Yifan Xu, Xixuan Song, Shudan Zhang, Hanyu Lai, Xinyi Liu, Hanlin Zhao, Jiadai Sun, Xinyue Yang, Yu Yang, Zehan Qi, Shuntian Yao, Xueqiao Sun, Siyi Cheng, Qinkai Zheng, Hao Yu, Hanchen Zhang, Wenyi Hong, Ming Ding, Lihang Pan, Xiaotao Gu, Aohan Zeng, Zhengxiao Du, Chan Hee Song, Yu Su, Yuxiao Dong, Jie Tang
cs.AI
Аннотация
Большие мультимодальные модели (LMM) открыли новую эру в искусственном интеллекте, объединяя возможности как в области языка, так и зрения для создания высококвалифицированных агентов визуального фундамента. Предполагается, что эти агенты будут превосходить в различных задачах и, возможно, приблизятся к общему искусственному интеллекту. Однако существующие бенчмарки не способны достаточно вызвать вызов или продемонстрировать полный потенциал LMM в сложных реальных средах. Для решения этой проблемы мы представляем VisualAgentBench (VAB) - обширный и новаторский бенчмарк, специально разработанный для обучения и оценки LMM в качестве визуальных агентов фундамента в различных сценариях, включая воплощенные, графические пользовательские интерфейсы и визуальный дизайн, с задачами, направленными на исследование глубины понимания и взаимодействия LMM. Через тщательное тестирование на девяти закрытых API LMM и восьми открытых моделях мы демонстрируем значительные, но все еще развивающиеся возможности агентов этих моделей. Кроме того, VAB создает набор данных для тренировки траекторий, составленный с использованием гибридных методов, включая решатели на основе программ, бутстраппинг агентов LMM и демонстрации человека, способствуя значительному улучшению производительности LMM через клонирование поведения. Наша работа нацелена не только на оценку существующих моделей, но и предоставляет прочное основание для будущего развития в области визуальных агентов фундамента. Код, данные для обучения и тестирования, а также часть донастроенных открытых LMM доступны по адресу https://github.com/THUDM/VisualAgentBench.
English
Large Multimodal Models (LMMs) have ushered in a new era in artificial
intelligence, merging capabilities in both language and vision to form highly
capable Visual Foundation Agents. These agents are postulated to excel across a
myriad of tasks, potentially approaching general artificial intelligence.
However, existing benchmarks fail to sufficiently challenge or showcase the
full potential of LMMs in complex, real-world environments. To address this
gap, we introduce VisualAgentBench (VAB), a comprehensive and pioneering
benchmark specifically designed to train and evaluate LMMs as visual foundation
agents across diverse scenarios, including Embodied, Graphical User Interface,
and Visual Design, with tasks formulated to probe the depth of LMMs'
understanding and interaction capabilities. Through rigorous testing across
nine proprietary LMM APIs and eight open models, we demonstrate the
considerable yet still developing agent capabilities of these models.
Additionally, VAB constructs a trajectory training set constructed through
hybrid methods including Program-based Solvers, LMM Agent Bootstrapping, and
Human Demonstrations, promoting substantial performance improvements in LMMs
through behavior cloning. Our work not only aims to benchmark existing models
but also provides a solid foundation for future development into visual
foundation agents. Code, train \& test data, and part of fine-tuned open LMMs
are available at https://github.com/THUDM/VisualAgentBench.Summary
AI-Generated Summary