GPQA: 대학원 수준의 구글 검색 방지 질의응답 벤치마크
GPQA: A Graduate-Level Google-Proof Q&A Benchmark
November 20, 2023
저자: David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R. Bowman
cs.AI
초록
우리는 생물학, 물리학, 화학 분야의 전문가들이 작성한 448개의 객관식 질문으로 구성된 도전적인 데이터셋인 GPQA를 소개한다. 이 질문들은 고품질이며 극도로 어렵도록 설계되었는데, 해당 분야에서 박사 학위를 취득했거나 취득 중인 전문가들의 정확도가 65%(후회하며 확인한 명백한 실수를 제외하면 74%)에 불과한 반면, 고도로 숙련된 비전문가 검증자들은 웹에 무제한 접근하며 평균 30분 이상을 소비했음에도 불구하고 정확도가 34%에 그쳤다(즉, 이 질문들은 "구글 방어"가 가능하다). 또한 이 질문들은 최첨단 AI 시스템에게도 어려운데, 우리가 사용한 가장 강력한 GPT-4 기반 베이스라인의 정확도는 39%에 그쳤다. 만약 미래의 AI 시스템을 활용하여 매우 어려운 질문에 답하고자 한다면, 예를 들어 새로운 과학적 지식을 개발할 때, 인간이 그 출력을 감독할 수 있는 확장 가능한 감독 방법을 개발해야 한다. 이는 감독자 자신이 숙련되고 지식이 풍부하더라도 어려울 수 있다. GPQA의 난이도는 숙련된 비전문가와 최첨단 AI 시스템 모두에게 현실적인 확장 가능한 감독 실험을 가능하게 할 것이며, 우리는 이를 통해 인간 전문가들이 인간 능력을 초월하는 AI 시스템으로부터 신뢰할 수 있는 진실된 정보를 얻는 방법을 마련하는 데 도움이 되기를 바란다.
English
We present GPQA, a challenging dataset of 448 multiple-choice questions
written by domain experts in biology, physics, and chemistry. We ensure that
the questions are high-quality and extremely difficult: experts who have or are
pursuing PhDs in the corresponding domains reach 65% accuracy (74% when
discounting clear mistakes the experts identified in retrospect), while highly
skilled non-expert validators only reach 34% accuracy, despite spending on
average over 30 minutes with unrestricted access to the web (i.e., the
questions are "Google-proof"). The questions are also difficult for
state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving
39% accuracy. If we are to use future AI systems to help us answer very hard
questions, for example, when developing new scientific knowledge, we need to
develop scalable oversight methods that enable humans to supervise their
outputs, which may be difficult even if the supervisors are themselves skilled
and knowledgeable. The difficulty of GPQA both for skilled non-experts and
frontier AI systems should enable realistic scalable oversight experiments,
which we hope can help devise ways for human experts to reliably get truthful
information from AI systems that surpass human capabilities.