GPQA: Um Benchmark de Perguntas e Respostas à Prova de Google em Nível de Pós-Graduação
GPQA: A Graduate-Level Google-Proof Q&A Benchmark
November 20, 2023
Autores: David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R. Bowman
cs.AI
Resumo
Apresentamos o GPQA, um conjunto de dados desafiador composto por 448 questões de múltipla escolha elaboradas por especialistas em biologia, física e química. Garantimos que as questões são de alta qualidade e extremamente difíceis: especialistas que possuem ou estão cursando doutorado nas áreas correspondentes atingem 65% de precisão (74% ao desconsiderar erros claros que os especialistas identificaram retrospectivamente), enquanto validadores altamente qualificados, mas não especialistas, alcançam apenas 34% de precisão, apesar de gastarem em média mais de 30 minutos com acesso irrestrito à web (ou seja, as questões são "à prova de Google"). As questões também são difíceis para sistemas de IA de ponta, com nossa linha de base mais forte baseada no GPT-4 atingindo 39% de precisão. Se quisermos usar futuros sistemas de IA para nos ajudar a responder perguntas muito difíceis, por exemplo, ao desenvolver novos conhecimentos científicos, precisamos desenvolver métodos de supervisão escaláveis que permitam aos humanos supervisionar suas saídas, o que pode ser difícil mesmo que os supervisores sejam habilidosos e experientes. A dificuldade do GPQA tanto para não especialistas qualificados quanto para sistemas de IA de fronteira deve permitir experimentos realistas de supervisão escalável, o que esperamos que possa ajudar a criar maneiras para que especialistas humanos obtenham informações confiáveis e verdadeiras de sistemas de IA que superam as capacidades humanas.
English
We present GPQA, a challenging dataset of 448 multiple-choice questions
written by domain experts in biology, physics, and chemistry. We ensure that
the questions are high-quality and extremely difficult: experts who have or are
pursuing PhDs in the corresponding domains reach 65% accuracy (74% when
discounting clear mistakes the experts identified in retrospect), while highly
skilled non-expert validators only reach 34% accuracy, despite spending on
average over 30 minutes with unrestricted access to the web (i.e., the
questions are "Google-proof"). The questions are also difficult for
state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving
39% accuracy. If we are to use future AI systems to help us answer very hard
questions, for example, when developing new scientific knowledge, we need to
develop scalable oversight methods that enable humans to supervise their
outputs, which may be difficult even if the supervisors are themselves skilled
and knowledgeable. The difficulty of GPQA both for skilled non-experts and
frontier AI systems should enable realistic scalable oversight experiments,
which we hope can help devise ways for human experts to reliably get truthful
information from AI systems that surpass human capabilities.