GPQA: Un Benchmark de Preguntas y Respuestas a Nivel de Posgrado Resistente a Google
GPQA: A Graduate-Level Google-Proof Q&A Benchmark
November 20, 2023
Autores: David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R. Bowman
cs.AI
Resumen
Presentamos GPQA, un conjunto de datos desafiante de 448 preguntas de opción múltiple elaboradas por expertos en biología, física y química. Nos aseguramos de que las preguntas sean de alta calidad y extremadamente difíciles: expertos que tienen o están cursando doctorados en los dominios correspondientes alcanzan un 65% de precisión (74% al descartar errores claros que los expertos identificaron retrospectivamente), mientras que validadores altamente capacitados pero no expertos solo alcanzan un 34% de precisión, a pesar de dedicar en promedio más de 30 minutos con acceso ilimitado a la web (es decir, las preguntas son "a prueba de Google"). Las preguntas también son difíciles para los sistemas de IA de vanguardia, con nuestra línea de base más fuerte basada en GPT-4 logrando un 39% de precisión. Si queremos utilizar futuros sistemas de IA para ayudarnos a responder preguntas muy difíciles, por ejemplo, al desarrollar nuevos conocimientos científicos, necesitamos desarrollar métodos de supervisión escalables que permitan a los humanos supervisar sus resultados, lo cual puede ser difícil incluso si los supervisores son expertos y conocedores. La dificultad de GPQA tanto para no expertos capacitados como para sistemas de IA de frontera debería permitir experimentos realistas de supervisión escalable, lo que esperamos pueda ayudar a idear formas para que los expertos humanos obtengan información veraz de manera confiable de sistemas de IA que superan las capacidades humanas.
English
We present GPQA, a challenging dataset of 448 multiple-choice questions
written by domain experts in biology, physics, and chemistry. We ensure that
the questions are high-quality and extremely difficult: experts who have or are
pursuing PhDs in the corresponding domains reach 65% accuracy (74% when
discounting clear mistakes the experts identified in retrospect), while highly
skilled non-expert validators only reach 34% accuracy, despite spending on
average over 30 minutes with unrestricted access to the web (i.e., the
questions are "Google-proof"). The questions are also difficult for
state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving
39% accuracy. If we are to use future AI systems to help us answer very hard
questions, for example, when developing new scientific knowledge, we need to
develop scalable oversight methods that enable humans to supervise their
outputs, which may be difficult even if the supervisors are themselves skilled
and knowledgeable. The difficulty of GPQA both for skilled non-experts and
frontier AI systems should enable realistic scalable oversight experiments,
which we hope can help devise ways for human experts to reliably get truthful
information from AI systems that surpass human capabilities.