GPQA : Un Benchmark de Questions-Réponses Résistant à Google de Niveau Diplômé
GPQA: A Graduate-Level Google-Proof Q&A Benchmark
November 20, 2023
Auteurs: David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R. Bowman
cs.AI
Résumé
Nous présentons GPQA, un ensemble de données exigeant composé de 448 questions à choix multiples rédigées par des experts en biologie, physique et chimie. Nous avons veillé à ce que les questions soient de haute qualité et extrêmement difficiles : les experts titulaires ou en cours de doctorat dans les domaines correspondants atteignent une précision de 65 % (74 % en excluant les erreurs évidentes identifiées a posteriori par les experts), tandis que des validateurs non-experts très compétents n’atteignent que 34 % de précision, malgré un temps moyen de plus de 30 minutes passé avec un accès illimité à Internet (c’est-à-dire que les questions sont « à l’épreuve de Google »). Les questions sont également difficiles pour les systèmes d’IA de pointe, notre modèle de référence le plus performant basé sur GPT-4 atteignant une précision de 39 %. Si nous souhaitons utiliser les futurs systèmes d’IA pour nous aider à répondre à des questions très complexes, par exemple lors du développement de nouvelles connaissances scientifiques, nous devons mettre au point des méthodes de supervision évolutives permettant aux humains de superviser leurs résultats, ce qui peut s’avérer difficile même si les superviseurs sont eux-mêmes compétents et bien informés. La difficulté de GPQA, tant pour les non-experts compétents que pour les systèmes d’IA de pointe, devrait permettre des expériences réalistes de supervision évolutive, ce qui, nous l’espérons, pourra contribuer à concevoir des moyens pour que les experts humains obtiennent de manière fiable des informations véridiques provenant de systèmes d’IA surpassant les capacités humaines.
English
We present GPQA, a challenging dataset of 448 multiple-choice questions
written by domain experts in biology, physics, and chemistry. We ensure that
the questions are high-quality and extremely difficult: experts who have or are
pursuing PhDs in the corresponding domains reach 65% accuracy (74% when
discounting clear mistakes the experts identified in retrospect), while highly
skilled non-expert validators only reach 34% accuracy, despite spending on
average over 30 minutes with unrestricted access to the web (i.e., the
questions are "Google-proof"). The questions are also difficult for
state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving
39% accuracy. If we are to use future AI systems to help us answer very hard
questions, for example, when developing new scientific knowledge, we need to
develop scalable oversight methods that enable humans to supervise their
outputs, which may be difficult even if the supervisors are themselves skilled
and knowledgeable. The difficulty of GPQA both for skilled non-experts and
frontier AI systems should enable realistic scalable oversight experiments,
which we hope can help devise ways for human experts to reliably get truthful
information from AI systems that surpass human capabilities.