GAIA: een benchmark voor Algemene AI-assistenten

Samenvatting

We introduceren GAIA, een benchmark voor Algemene AI-assistenten die, indien opgelost, een mijlpaal zou betekenen in AI-onderzoek. GAIA stelt realistische vragen die een reeks fundamentele vaardigheden vereisen, zoals redeneren, omgaan met multi-modaliteit, webnavigatie en algemene vaardigheid in het gebruik van tools. De vragen van GAIA zijn conceptueel eenvoudig voor mensen, maar uitdagend voor de meeste geavanceerde AI-systemen: we laten zien dat menselijke respondenten 92\% scoren, tegenover 15\% voor GPT-4 uitgerust met plugins. Dit opmerkelijke prestatieverschil contrasteert met de recente trend waarbij grote taalmodellen (LLMs) mensen overtreffen in taken die professionele vaardigheden vereisen, zoals in het recht of de chemie. De filosofie van GAIA wijkt af van de huidige trend in AI-benchmarks, die suggereert om taken te richten die steeds moeilijker worden voor mensen. We stellen dat de komst van Kunstmatige Algemene Intelligentie (AGI) afhangt van het vermogen van een systeem om een vergelijkbare robuustheid te tonen als de gemiddelde mens bij dergelijke vragen. Met behulp van de methodologie van GAIA hebben we 466 vragen en hun antwoorden ontwikkeld. We publiceren onze vragen terwijl we de antwoorden op 300 ervan achterhouden om een leaderboard te ondersteunen dat beschikbaar is op https://huggingface.co/gaia-benchmark.

English

We introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questions that require a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and generally tool-use proficiency. GAIA questions are conceptually simple for humans yet challenging for most advanced AIs: we show that human respondents obtain 92\% vs. 15\% for GPT-4 equipped with plugins. This notable performance disparity contrasts with the recent trend of LLMs outperforming humans on tasks requiring professional skills in e.g. law or chemistry. GAIA's philosophy departs from the current trend in AI benchmarks suggesting to target tasks that are ever more difficult for humans. We posit that the advent of Artificial General Intelligence (AGI) hinges on a system's capability to exhibit similar robustness as the average human does on such questions. Using GAIA's methodology, we devise 466 questions and their answer. We release our questions while retaining answers to 300 of them to power a leader-board available at https://huggingface.co/gaia-benchmark.

GAIA: een benchmark voor Algemene AI-assistenten

GAIA: a benchmark for General AI Assistants

Samenvatting

Support