ChatPaper.aiChatPaper

GAIA: ein Benchmark für Allgemeine KI-Assistenten

GAIA: a benchmark for General AI Assistants

November 21, 2023
Autoren: Grégoire Mialon, Clémentine Fourrier, Craig Swift, Thomas Wolf, Yann LeCun, Thomas Scialom
cs.AI

Zusammenfassung

Wir stellen GAIA vor, einen Benchmark für Allgemeine KI-Assistenten, dessen Lösung einen Meilenstein in der KI-Forschung darstellen würde. GAIA stellt reale Fragen, die eine Reihe grundlegender Fähigkeiten erfordern, wie z. B. logisches Denken, Multimodalitätsverarbeitung, Web-Recherche und allgemeine Werkzeugnutzungskompetenz. GAIA-Fragen sind für Menschen konzeptionell einfach, aber für die meisten fortgeschrittenen KIs eine Herausforderung: Wir zeigen, dass menschliche Befragte 92 % erreichen, während GPT-4 mit Plugins nur 15 % erreicht. Diese bemerkenswerte Leistungsdiskrepanz steht im Gegensatz zum aktuellen Trend, dass große Sprachmodelle (LLMs) Menschen bei Aufgaben übertreffen, die Fachkenntnisse in z. B. Recht oder Chemie erfordern. Die Philosophie von GAIA weicht vom aktuellen Trend in KI-Benchmarks ab, die darauf abzielen, Aufgaben zu stellen, die für Menschen immer schwieriger werden. Wir vertreten die Ansicht, dass die Entstehung von Künstlicher Allgemeiner Intelligenz (AGI) von der Fähigkeit eines Systems abhängt, eine ähnliche Robustheit wie der Durchschnittsmensch bei solchen Fragen zu zeigen. Mit der Methodik von GAIA entwickeln wir 466 Fragen und deren Antworten. Wir veröffentlichen unsere Fragen, behalten jedoch die Antworten zu 300 davon zurück, um eine Bestenliste zu ermöglichen, die unter https://huggingface.co/gaia-benchmark verfügbar ist.
English
We introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questions that require a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and generally tool-use proficiency. GAIA questions are conceptually simple for humans yet challenging for most advanced AIs: we show that human respondents obtain 92\% vs. 15\% for GPT-4 equipped with plugins. This notable performance disparity contrasts with the recent trend of LLMs outperforming humans on tasks requiring professional skills in e.g. law or chemistry. GAIA's philosophy departs from the current trend in AI benchmarks suggesting to target tasks that are ever more difficult for humans. We posit that the advent of Artificial General Intelligence (AGI) hinges on a system's capability to exhibit similar robustness as the average human does on such questions. Using GAIA's methodology, we devise 466 questions and their answer. We release our questions while retaining answers to 300 of them to power a leader-board available at https://huggingface.co/gaia-benchmark.
PDF21924December 15, 2024