GPQA: Een Benchmark voor Vraag en Antwoord op Graduaatniveau die Bestand is tegen Google
GPQA: A Graduate-Level Google-Proof Q&A Benchmark
November 20, 2023
Auteurs: David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R. Bowman
cs.AI
Samenvatting
We presenteren GPQA, een uitdagende dataset van 448 meerkeuzevragen, opgesteld door domeinexperts in biologie, natuurkunde en scheikunde. We zorgen ervoor dat de vragen van hoge kwaliteit en extreem moeilijk zijn: experts die een PhD hebben of nastreven in de betreffende domeinen behalen een nauwkeurigheid van 65% (74% wanneer duidelijke fouten die de experts achteraf identificeerden buiten beschouwing worden gelaten), terwijl zeer vaardige niet-expert validatoren slechts een nauwkeurigheid van 34% bereiken, ondanks dat ze gemiddeld meer dan 30 minuten onbeperkt toegang tot het web hadden (d.w.z. de vragen zijn "Google-proof"). De vragen zijn ook moeilijk voor state-of-the-art AI-systemen, waarbij onze sterkste GPT-4-baseline een nauwkeurigheid van 39% behaalt. Als we toekomstige AI-systemen willen gebruiken om ons te helpen bij het beantwoorden van zeer moeilijke vragen, bijvoorbeeld bij het ontwikkelen van nieuwe wetenschappelijke kennis, moeten we schaalbare toezichtmethoden ontwikkelen die mensen in staat stellen hun uitvoer te controleren, wat zelfs moeilijk kan zijn als de supervisors zelf vaardig en deskundig zijn. De moeilijkheidsgraad van GPQA, zowel voor vaardige niet-experts als voor geavanceerde AI-systemen, zou realistische schaalbare toezichtexperimenten mogelijk moeten maken, waarvan we hopen dat ze manieren kunnen bedenken waarop menselijke experts betrouwbaar waarheidsgetrouwe informatie kunnen verkrijgen van AI-systemen die menselijke capaciteiten overstijgen.
English
We present GPQA, a challenging dataset of 448 multiple-choice questions
written by domain experts in biology, physics, and chemistry. We ensure that
the questions are high-quality and extremely difficult: experts who have or are
pursuing PhDs in the corresponding domains reach 65% accuracy (74% when
discounting clear mistakes the experts identified in retrospect), while highly
skilled non-expert validators only reach 34% accuracy, despite spending on
average over 30 minutes with unrestricted access to the web (i.e., the
questions are "Google-proof"). The questions are also difficult for
state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving
39% accuracy. If we are to use future AI systems to help us answer very hard
questions, for example, when developing new scientific knowledge, we need to
develop scalable oversight methods that enable humans to supervise their
outputs, which may be difficult even if the supervisors are themselves skilled
and knowledgeable. The difficulty of GPQA both for skilled non-experts and
frontier AI systems should enable realistic scalable oversight experiments,
which we hope can help devise ways for human experts to reliably get truthful
information from AI systems that surpass human capabilities.