GAIA: um benchmark para Assistentes de IA Geral

Resumo

Apresentamos o GAIA, um benchmark para Assistentes de IA Geral que, se resolvido, representaria um marco na pesquisa em IA. O GAIA propõe perguntas do mundo real que exigem um conjunto de habilidades fundamentais, como raciocínio, manipulação de multimodalidade, navegação na web e, de modo geral, proficiência no uso de ferramentas. As perguntas do GAIA são conceitualmente simples para humanos, mas desafiadoras para a maioria das IAs avançadas: mostramos que os respondentes humanos obtêm 92\% em comparação com 15\% para o GPT-4 equipado com plugins. Essa notável disparidade de desempenho contrasta com a tendência recente de LLMs superarem humanos em tarefas que exigem habilidades profissionais, como direito ou química. A filosofia do GAIA se afasta da tendência atual em benchmarks de IA, que sugerem direcionar tarefas cada vez mais difíceis para humanos. Postulamos que o advento da Inteligência Geral Artificial (AGI) depende da capacidade de um sistema exibir uma robustez semelhante à do ser humano médio em tais perguntas. Utilizando a metodologia do GAIA, elaboramos 466 perguntas e suas respostas. Liberamos nossas perguntas, mas retemos as respostas de 300 delas para alimentar um quadro de líderes disponível em https://huggingface.co/gaia-benchmark.

English

We introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questions that require a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and generally tool-use proficiency. GAIA questions are conceptually simple for humans yet challenging for most advanced AIs: we show that human respondents obtain 92\% vs. 15\% for GPT-4 equipped with plugins. This notable performance disparity contrasts with the recent trend of LLMs outperforming humans on tasks requiring professional skills in e.g. law or chemistry. GAIA's philosophy departs from the current trend in AI benchmarks suggesting to target tasks that are ever more difficult for humans. We posit that the advent of Artificial General Intelligence (AGI) hinges on a system's capability to exhibit similar robustness as the average human does on such questions. Using GAIA's methodology, we devise 466 questions and their answer. We release our questions while retaining answers to 300 of them to power a leader-board available at https://huggingface.co/gaia-benchmark.

GAIA: um benchmark para Assistentes de IA Geral

GAIA: a benchmark for General AI Assistants

Resumo

Support