ChatPaper.aiChatPaper

GPQA: Un Benchmark de Preguntas y Respuestas a Nivel de Posgrado Resistente a Google

GPQA: A Graduate-Level Google-Proof Q&A Benchmark

November 20, 2023
Autores: David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R. Bowman
cs.AI

Resumen

Presentamos GPQA, un conjunto de datos desafiante de 448 preguntas de opción múltiple elaboradas por expertos en biología, física y química. Nos aseguramos de que las preguntas sean de alta calidad y extremadamente difíciles: expertos que tienen o están cursando doctorados en los dominios correspondientes alcanzan un 65% de precisión (74% al descartar errores claros que los expertos identificaron retrospectivamente), mientras que validadores altamente capacitados pero no expertos solo alcanzan un 34% de precisión, a pesar de dedicar en promedio más de 30 minutos con acceso ilimitado a la web (es decir, las preguntas son "a prueba de Google"). Las preguntas también son difíciles para los sistemas de IA de vanguardia, con nuestra línea de base más fuerte basada en GPT-4 logrando un 39% de precisión. Si queremos utilizar futuros sistemas de IA para ayudarnos a responder preguntas muy difíciles, por ejemplo, al desarrollar nuevos conocimientos científicos, necesitamos desarrollar métodos de supervisión escalables que permitan a los humanos supervisar sus resultados, lo cual puede ser difícil incluso si los supervisores son expertos y conocedores. La dificultad de GPQA tanto para no expertos capacitados como para sistemas de IA de frontera debería permitir experimentos realistas de supervisión escalable, lo que esperamos pueda ayudar a idear formas para que los expertos humanos obtengan información veraz de manera confiable de sistemas de IA que superan las capacidades humanas.
English
We present GPQA, a challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. We ensure that the questions are high-quality and extremely difficult: experts who have or are pursuing PhDs in the corresponding domains reach 65% accuracy (74% when discounting clear mistakes the experts identified in retrospect), while highly skilled non-expert validators only reach 34% accuracy, despite spending on average over 30 minutes with unrestricted access to the web (i.e., the questions are "Google-proof"). The questions are also difficult for state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving 39% accuracy. If we are to use future AI systems to help us answer very hard questions, for example, when developing new scientific knowledge, we need to develop scalable oversight methods that enable humans to supervise their outputs, which may be difficult even if the supervisors are themselves skilled and knowledgeable. The difficulty of GPQA both for skilled non-experts and frontier AI systems should enable realistic scalable oversight experiments, which we hope can help devise ways for human experts to reliably get truthful information from AI systems that surpass human capabilities.
PDF312December 15, 2024