GPQA: Un Benchmark di Domande e Risposte a Livello Universitario a Prova di Google

Abstract

Presentiamo GPQA, un dataset impegnativo composto da 448 domande a scelta multipla redatte da esperti di biologia, fisica e chimica. Ci siamo assicurati che le domande fossero di alta qualità e estremamente difficili: esperti che hanno o stanno perseguendo un dottorato di ricerca nei rispettivi domini raggiungono un'accuratezza del 65% (74% se si escludono errori evidenti identificati dagli esperti in retrospettiva), mentre validatori altamente qualificati ma non esperti raggiungono solo il 34% di accuratezza, nonostante abbiano trascorso in media oltre 30 minuti con accesso illimitato al web (ovvero, le domande sono "a prova di Google"). Le domande si rivelano difficili anche per i sistemi di intelligenza artificiale più avanzati, con il nostro modello di riferimento basato su GPT-4 che raggiunge un'accuratezza del 39%. Se intendiamo utilizzare futuri sistemi di IA per aiutarci a rispondere a domande molto complesse, ad esempio nello sviluppo di nuove conoscenze scientifiche, è necessario sviluppare metodi di supervisione scalabili che consentano agli esseri umani di monitorare i loro output, il che potrebbe essere difficile anche se i supervisori sono essi stessi competenti e preparati. La difficoltà di GPQA sia per i non esperti qualificati che per i sistemi di IA all'avanguardia dovrebbe consentire esperimenti realistici di supervisione scalabile, che speriamo possano aiutare a ideare modi affinché gli esperti umani possano ottenere in modo affidabile informazioni veritiere da sistemi di IA che superano le capacità umane.

English

We present GPQA, a challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. We ensure that the questions are high-quality and extremely difficult: experts who have or are pursuing PhDs in the corresponding domains reach 65% accuracy (74% when discounting clear mistakes the experts identified in retrospect), while highly skilled non-expert validators only reach 34% accuracy, despite spending on average over 30 minutes with unrestricted access to the web (i.e., the questions are "Google-proof"). The questions are also difficult for state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving 39% accuracy. If we are to use future AI systems to help us answer very hard questions, for example, when developing new scientific knowledge, we need to develop scalable oversight methods that enable humans to supervise their outputs, which may be difficult even if the supervisors are themselves skilled and knowledgeable. The difficulty of GPQA both for skilled non-experts and frontier AI systems should enable realistic scalable oversight experiments, which we hope can help devise ways for human experts to reliably get truthful information from AI systems that surpass human capabilities.

GPQA: Un Benchmark di Domande e Risposte a Livello Universitario a Prova di Google

GPQA: A Graduate-Level Google-Proof Q&A Benchmark

Abstract

Support