GAIA: эталонный тест для универсальных искусственных интеллектуальных ассистентов
GAIA: a benchmark for General AI Assistants
November 21, 2023
Авторы: Grégoire Mialon, Clémentine Fourrier, Craig Swift, Thomas Wolf, Yann LeCun, Thomas Scialom
cs.AI
Аннотация
Мы представляем GAIA — эталонный тест для универсальных искусственных интеллектов, решение которого станет важной вехой в исследованиях ИИ. GAIA предлагает реальные вопросы, требующие набора фундаментальных способностей, таких как логическое рассуждение, обработка мультимодальных данных, веб-поиск и общее умение работать с инструментами. Вопросы GAIA концептуально просты для людей, но сложны для большинства современных ИИ: мы показываем, что люди дают правильные ответы в 92% случаев, в то время как GPT-4 с плагинами справляется лишь в 15%. Этот значительный разрыв в производительности контрастирует с недавней тенденцией, когда языковые модели превосходят людей в задачах, требующих профессиональных навыков, например в юриспруденции или химии. Философия GAIA отличается от текущего тренда в эталонных тестах ИИ, которые предлагают задачи, всё более сложные для людей. Мы утверждаем, что появление искусственного общего интеллекта (ИОИ) зависит от способности системы демонстрировать такую же устойчивость, как средний человек, при решении подобных вопросов. Используя методологию GAIA, мы разработали 466 вопросов и ответов на них. Мы публикуем вопросы, сохраняя ответы на 300 из них для создания рейтинговой таблицы, доступной по адресу https://huggingface.co/gaia-benchmark.
English
We introduce GAIA, a benchmark for General AI Assistants that, if solved,
would represent a milestone in AI research. GAIA proposes real-world questions
that require a set of fundamental abilities such as reasoning, multi-modality
handling, web browsing, and generally tool-use proficiency. GAIA questions are
conceptually simple for humans yet challenging for most advanced AIs: we show
that human respondents obtain 92\% vs. 15\% for GPT-4 equipped with plugins.
This notable performance disparity contrasts with the recent trend of LLMs
outperforming humans on tasks requiring professional skills in e.g. law or
chemistry. GAIA's philosophy departs from the current trend in AI benchmarks
suggesting to target tasks that are ever more difficult for humans. We posit
that the advent of Artificial General Intelligence (AGI) hinges on a system's
capability to exhibit similar robustness as the average human does on such
questions. Using GAIA's methodology, we devise 466 questions and their answer.
We release our questions while retaining answers to 300 of them to power a
leader-board available at https://huggingface.co/gaia-benchmark.