GPQA : Un Benchmark de Questions-Réponses Résistant à Google de Niveau Diplômé

papers.abstract

Nous présentons GPQA, un ensemble de données exigeant composé de 448 questions à choix multiples rédigées par des experts en biologie, physique et chimie. Nous avons veillé à ce que les questions soient de haute qualité et extrêmement difficiles : les experts titulaires ou en cours de doctorat dans les domaines correspondants atteignent une précision de 65 % (74 % en excluant les erreurs évidentes identifiées a posteriori par les experts), tandis que des validateurs non-experts très compétents n’atteignent que 34 % de précision, malgré un temps moyen de plus de 30 minutes passé avec un accès illimité à Internet (c’est-à-dire que les questions sont « à l’épreuve de Google »). Les questions sont également difficiles pour les systèmes d’IA de pointe, notre modèle de référence le plus performant basé sur GPT-4 atteignant une précision de 39 %. Si nous souhaitons utiliser les futurs systèmes d’IA pour nous aider à répondre à des questions très complexes, par exemple lors du développement de nouvelles connaissances scientifiques, nous devons mettre au point des méthodes de supervision évolutives permettant aux humains de superviser leurs résultats, ce qui peut s’avérer difficile même si les superviseurs sont eux-mêmes compétents et bien informés. La difficulté de GPQA, tant pour les non-experts compétents que pour les systèmes d’IA de pointe, devrait permettre des expériences réalistes de supervision évolutive, ce qui, nous l’espérons, pourra contribuer à concevoir des moyens pour que les experts humains obtiennent de manière fiable des informations véridiques provenant de systèmes d’IA surpassant les capacités humaines.

English

We present GPQA, a challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. We ensure that the questions are high-quality and extremely difficult: experts who have or are pursuing PhDs in the corresponding domains reach 65% accuracy (74% when discounting clear mistakes the experts identified in retrospect), while highly skilled non-expert validators only reach 34% accuracy, despite spending on average over 30 minutes with unrestricted access to the web (i.e., the questions are "Google-proof"). The questions are also difficult for state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving 39% accuracy. If we are to use future AI systems to help us answer very hard questions, for example, when developing new scientific knowledge, we need to develop scalable oversight methods that enable humans to supervise their outputs, which may be difficult even if the supervisors are themselves skilled and knowledgeable. The difficulty of GPQA both for skilled non-experts and frontier AI systems should enable realistic scalable oversight experiments, which we hope can help devise ways for human experts to reliably get truthful information from AI systems that surpass human capabilities.

GPQA : Un Benchmark de Questions-Réponses Résistant à Google de Niveau Diplômé

GPQA: A Graduate-Level Google-Proof Q&A Benchmark

papers.abstract

Support