GAIA: un punto de referencia para Asistentes de Inteligencia Artificial General

Resumen

Presentamos GAIA, un punto de referencia para Asistentes de IA General que, de ser resuelto, representaría un hito en la investigación de IA. GAIA propone preguntas del mundo real que requieren un conjunto de habilidades fundamentales como razonamiento, manejo de multimodalidad, navegación web y, en general, competencia en el uso de herramientas. Las preguntas de GAIA son conceptualmente simples para los humanos, pero desafiantes para la mayoría de las IA avanzadas: demostramos que los encuestados humanos obtienen un 92\% frente a un 15\% para GPT-4 equipado con complementos. Esta notable disparidad de rendimiento contrasta con la tendencia reciente de que los modelos de lenguaje grandes (LLM) superen a los humanos en tareas que requieren habilidades profesionales, como en derecho o química. La filosofía de GAIA se aparta de la tendencia actual en los puntos de referencia de IA, que sugieren enfocarse en tareas cada vez más difíciles para los humanos. Postulamos que el advenimiento de la Inteligencia Artificial General (AGI) depende de la capacidad de un sistema para exhibir una robustez similar a la del humano promedio en este tipo de preguntas. Utilizando la metodología de GAIA, diseñamos 466 preguntas y sus respuestas. Publicamos nuestras preguntas mientras retenemos las respuestas de 300 de ellas para alimentar un tablero de clasificación disponible en https://huggingface.co/gaia-benchmark.

English

We introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questions that require a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and generally tool-use proficiency. GAIA questions are conceptually simple for humans yet challenging for most advanced AIs: we show that human respondents obtain 92\% vs. 15\% for GPT-4 equipped with plugins. This notable performance disparity contrasts with the recent trend of LLMs outperforming humans on tasks requiring professional skills in e.g. law or chemistry. GAIA's philosophy departs from the current trend in AI benchmarks suggesting to target tasks that are ever more difficult for humans. We posit that the advent of Artificial General Intelligence (AGI) hinges on a system's capability to exhibit similar robustness as the average human does on such questions. Using GAIA's methodology, we devise 466 questions and their answer. We release our questions while retaining answers to 300 of them to power a leader-board available at https://huggingface.co/gaia-benchmark.

GAIA: un punto de referencia para Asistentes de Inteligencia Artificial General

GAIA: a benchmark for General AI Assistants

Resumen

Support