GAIA: un benchmark per Assistanti di Intelligenza Artificiale Generale
GAIA: a benchmark for General AI Assistants
November 21, 2023
Autori: Grégoire Mialon, Clémentine Fourrier, Craig Swift, Thomas Wolf, Yann LeCun, Thomas Scialom
cs.AI
Abstract
Presentiamo GAIA, un benchmark per Assistenti AI Generali che, se risolto, rappresenterebbe una pietra miliare nella ricerca sull'IA. GAIA propone domande del mondo reale che richiedono un insieme di abilità fondamentali come il ragionamento, la gestione della multimodalità, la navigazione web e, in generale, la competenza nell'uso di strumenti. Le domande di GAIA sono concettualmente semplici per gli esseri umani ma rappresentano una sfida per la maggior parte delle IA avanzate: dimostriamo che i rispondenti umani ottengono il 92\% rispetto al 15\% di GPT-4 dotato di plugin. Questo notevole divario di prestazione contrasta con la recente tendenza dei modelli linguistici di grandi dimensioni (LLM) che superano gli esseri umani in compiti che richiedono competenze professionali, ad esempio nel diritto o nella chimica. La filosofia di GAIA si discosta dalla tendenza attuale nei benchmark di IA che suggeriscono di puntare a compiti sempre più difficili per gli esseri umani. Sosteniamo che l'avvento dell'Intelligenza Artificiale Generale (AGI) dipenda dalla capacità di un sistema di dimostrare una robustezza simile a quella dell'essere umano medio su tali domande. Utilizzando la metodologia di GAIA, abbiamo elaborato 466 domande e le relative risposte. Rilasciamo le nostre domande mantenendo riservate le risposte a 300 di esse per alimentare una classifica disponibile all'indirizzo https://huggingface.co/gaia-benchmark.
English
We introduce GAIA, a benchmark for General AI Assistants that, if solved,
would represent a milestone in AI research. GAIA proposes real-world questions
that require a set of fundamental abilities such as reasoning, multi-modality
handling, web browsing, and generally tool-use proficiency. GAIA questions are
conceptually simple for humans yet challenging for most advanced AIs: we show
that human respondents obtain 92\% vs. 15\% for GPT-4 equipped with plugins.
This notable performance disparity contrasts with the recent trend of LLMs
outperforming humans on tasks requiring professional skills in e.g. law or
chemistry. GAIA's philosophy departs from the current trend in AI benchmarks
suggesting to target tasks that are ever more difficult for humans. We posit
that the advent of Artificial General Intelligence (AGI) hinges on a system's
capability to exhibit similar robustness as the average human does on such
questions. Using GAIA's methodology, we devise 466 questions and their answer.
We release our questions while retaining answers to 300 of them to power a
leader-board available at https://huggingface.co/gaia-benchmark.