ChatPaper.aiChatPaper

GAIA:汎用AIアシスタントのためのベンチマーク

GAIA: a benchmark for General AI Assistants

November 21, 2023
著者: Grégoire Mialon, Clémentine Fourrier, Craig Swift, Thomas Wolf, Yann LeCun, Thomas Scialom
cs.AI

要旨

私たちは、General AI Assistants(汎用AIアシスタント)のためのベンチマーク「GAIA」を紹介します。GAIAが解決されれば、AI研究における重要なマイルストーンとなるでしょう。GAIAは、推論、マルチモーダル処理、ウェブブラウジング、そして一般的なツール使用の熟練度など、一連の基本的な能力を必要とする現実世界の質問を提案します。GAIAの質問は、人間にとっては概念的には単純ですが、最先端のAIの多くにとっては挑戦的です。私たちは、人間の回答者が92%の正答率を達成するのに対し、プラグインを装備したGPT-4は15%の正答率しか得られないことを示しています。この顕著な性能差は、最近のLLM(大規模言語モデル)が法律や化学などの専門スキルを必要とするタスクで人間を凌駕する傾向とは対照的です。GAIAの哲学は、人間にとってますます困難なタスクをターゲットとする現在のAIベンチマークの潮流とは異なります。私たちは、人工汎用知能(AGI)の到来は、そのような質問に対して平均的な人間と同様の堅牢性を示すシステムの能力にかかっていると主張します。GAIAの方法論を用いて、私たちは466の質問とその回答を考案しました。私たちは質問を公開し、そのうち300の回答を保留して、https://huggingface.co/gaia-benchmark で利用可能なリーダーボードを提供します。
English
We introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questions that require a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and generally tool-use proficiency. GAIA questions are conceptually simple for humans yet challenging for most advanced AIs: we show that human respondents obtain 92\% vs. 15\% for GPT-4 equipped with plugins. This notable performance disparity contrasts with the recent trend of LLMs outperforming humans on tasks requiring professional skills in e.g. law or chemistry. GAIA's philosophy departs from the current trend in AI benchmarks suggesting to target tasks that are ever more difficult for humans. We posit that the advent of Artificial General Intelligence (AGI) hinges on a system's capability to exhibit similar robustness as the average human does on such questions. Using GAIA's methodology, we devise 466 questions and their answer. We release our questions while retaining answers to 300 of them to power a leader-board available at https://huggingface.co/gaia-benchmark.
PDF21924December 15, 2024