GAIA : un benchmark pour les assistants d'intelligence artificielle générale

papers.abstract

Nous présentons GAIA, un benchmark pour les Assistants d'Intelligence Générale qui, s'il était résolu, représenterait une étape majeure dans la recherche en IA. GAIA propose des questions issues du monde réel qui nécessitent un ensemble de compétences fondamentales telles que le raisonnement, la gestion de la multimodalité, la navigation sur le web et, de manière générale, la maîtrise de l'utilisation d'outils. Les questions de GAIA sont conceptuellement simples pour les humains mais restent difficiles pour la plupart des IA avancées : nous montrons que les répondants humains obtiennent un score de 92 % contre 15 % pour GPT-4 équipé de plugins. Cette disparité de performance notable contraste avec la tendance récente des modèles de langage (LLM) qui surpassent les humains sur des tâches nécessitant des compétences professionnelles, par exemple en droit ou en chimie. La philosophie de GAIA s'écarte de la tendance actuelle des benchmarks en IA qui visent des tâches de plus en plus difficiles pour les humains. Nous postulons que l'avènement de l'Intelligence Artificielle Générale (AGI) dépend de la capacité d'un système à démontrer une robustesse similaire à celle d'un humain moyen face à de telles questions. En utilisant la méthodologie de GAIA, nous avons conçu 466 questions et leurs réponses. Nous publions nos questions tout en conservant les réponses à 300 d'entre elles pour alimenter un classement disponible à l'adresse suivante : https://huggingface.co/gaia-benchmark.

English

We introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questions that require a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and generally tool-use proficiency. GAIA questions are conceptually simple for humans yet challenging for most advanced AIs: we show that human respondents obtain 92\% vs. 15\% for GPT-4 equipped with plugins. This notable performance disparity contrasts with the recent trend of LLMs outperforming humans on tasks requiring professional skills in e.g. law or chemistry. GAIA's philosophy departs from the current trend in AI benchmarks suggesting to target tasks that are ever more difficult for humans. We posit that the advent of Artificial General Intelligence (AGI) hinges on a system's capability to exhibit similar robustness as the average human does on such questions. Using GAIA's methodology, we devise 466 questions and their answer. We release our questions while retaining answers to 300 of them to power a leader-board available at https://huggingface.co/gaia-benchmark.

GAIA : un benchmark pour les assistants d'intelligence artificielle générale

GAIA: a benchmark for General AI Assistants

papers.abstract

Support