GAIA : un benchmark pour les assistants d'intelligence artificielle générale
GAIA: a benchmark for General AI Assistants
November 21, 2023
Auteurs: Grégoire Mialon, Clémentine Fourrier, Craig Swift, Thomas Wolf, Yann LeCun, Thomas Scialom
cs.AI
Résumé
Nous présentons GAIA, un benchmark pour les Assistants d'Intelligence Générale qui, s'il était résolu, représenterait une étape majeure dans la recherche en IA. GAIA propose des questions issues du monde réel qui nécessitent un ensemble de compétences fondamentales telles que le raisonnement, la gestion de la multimodalité, la navigation sur le web et, de manière générale, la maîtrise de l'utilisation d'outils. Les questions de GAIA sont conceptuellement simples pour les humains mais restent difficiles pour la plupart des IA avancées : nous montrons que les répondants humains obtiennent un score de 92 % contre 15 % pour GPT-4 équipé de plugins. Cette disparité de performance notable contraste avec la tendance récente des modèles de langage (LLM) qui surpassent les humains sur des tâches nécessitant des compétences professionnelles, par exemple en droit ou en chimie. La philosophie de GAIA s'écarte de la tendance actuelle des benchmarks en IA qui visent des tâches de plus en plus difficiles pour les humains. Nous postulons que l'avènement de l'Intelligence Artificielle Générale (AGI) dépend de la capacité d'un système à démontrer une robustesse similaire à celle d'un humain moyen face à de telles questions. En utilisant la méthodologie de GAIA, nous avons conçu 466 questions et leurs réponses. Nous publions nos questions tout en conservant les réponses à 300 d'entre elles pour alimenter un classement disponible à l'adresse suivante : https://huggingface.co/gaia-benchmark.
English
We introduce GAIA, a benchmark for General AI Assistants that, if solved,
would represent a milestone in AI research. GAIA proposes real-world questions
that require a set of fundamental abilities such as reasoning, multi-modality
handling, web browsing, and generally tool-use proficiency. GAIA questions are
conceptually simple for humans yet challenging for most advanced AIs: we show
that human respondents obtain 92\% vs. 15\% for GPT-4 equipped with plugins.
This notable performance disparity contrasts with the recent trend of LLMs
outperforming humans on tasks requiring professional skills in e.g. law or
chemistry. GAIA's philosophy departs from the current trend in AI benchmarks
suggesting to target tasks that are ever more difficult for humans. We posit
that the advent of Artificial General Intelligence (AGI) hinges on a system's
capability to exhibit similar robustness as the average human does on such
questions. Using GAIA's methodology, we devise 466 questions and their answer.
We release our questions while retaining answers to 300 of them to power a
leader-board available at https://huggingface.co/gaia-benchmark.