GPQA: Выпускной эталонный тест вопросов и ответов, устойчивый к поиску в Google
GPQA: A Graduate-Level Google-Proof Q&A Benchmark
November 20, 2023
Авторы: David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R. Bowman
cs.AI
Аннотация
Мы представляем GPQA — сложный набор данных, состоящий из 448 вопросов с множественным выбором, составленных экспертами в области биологии, физики и химии. Мы обеспечили высокое качество и исключительную сложность вопросов: эксперты, имеющие или получающие степень PhD в соответствующих областях, достигают точности 65% (74% при исключении явных ошибок, которые эксперты выявили впоследствии), тогда как высококвалифицированные неэксперты-валидаторы достигают лишь 34% точности, несмотря на то, что в среднем тратят более 30 минут с неограниченным доступом к интернету (то есть вопросы являются "устойчивыми к поиску в Google"). Вопросы также сложны для современных систем искусственного интеллекта: наша наиболее сильная базовая модель на основе GPT-4 достигает точности 39%. Если мы хотим использовать будущие системы ИИ для ответов на очень сложные вопросы, например, при разработке новых научных знаний, нам необходимо разработать масштабируемые методы контроля, которые позволят людям надзирать за их выводами, что может быть сложным даже для опытных и знающих специалистов. Сложность GPQA как для квалифицированных неэкспертов, так и для передовых систем ИИ должна позволить проводить реалистичные эксперименты по масштабируемому контролю, что, как мы надеемся, поможет разработать способы, с помощью которых эксперты смогут надежно получать достоверную информацию от систем ИИ, превосходящих человеческие возможности.
English
We present GPQA, a challenging dataset of 448 multiple-choice questions
written by domain experts in biology, physics, and chemistry. We ensure that
the questions are high-quality and extremely difficult: experts who have or are
pursuing PhDs in the corresponding domains reach 65% accuracy (74% when
discounting clear mistakes the experts identified in retrospect), while highly
skilled non-expert validators only reach 34% accuracy, despite spending on
average over 30 minutes with unrestricted access to the web (i.e., the
questions are "Google-proof"). The questions are also difficult for
state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving
39% accuracy. If we are to use future AI systems to help us answer very hard
questions, for example, when developing new scientific knowledge, we need to
develop scalable oversight methods that enable humans to supervise their
outputs, which may be difficult even if the supervisors are themselves skilled
and knowledgeable. The difficulty of GPQA both for skilled non-experts and
frontier AI systems should enable realistic scalable oversight experiments,
which we hope can help devise ways for human experts to reliably get truthful
information from AI systems that surpass human capabilities.