PRBench: Сквозное воспроизведение научных статей в физических исследованиях

Аннотация

Искусственные интеллектуальные агенты, основанные на больших языковых моделях, демонстрируют мощные способности к логическим рассуждениям и решению задач, что позволяет им помогать в научных исследованиях, таких как вывод формул и генерация кода. Однако вопрос о том, могут ли эти агенты надежно выполнять сквозное воспроизведение результатов из реальных научных статей, остается открытым. Мы представляем PRBench — набор из 30 экспертно отобранных задач, охватывающих 11 разделов физики. Каждая задача требует от агента понимания методологии опубликованной работы, самостоятельной реализации соответствующих алгоритмов с нуля и получения количественных результатов, совпадающих с исходной публикацией. Агентам предоставляются только описание задачи и содержание статьи, а работают они в изолированной среде выполнения. Все задачи подготовлены экспертами в предметной области из более чем 20 научных групп Школы физики Пекинского университета, каждая основана на реальной опубликованной статье и проверена путем сквозного воспроизведения с верифицированными эталонными результатами и детальными критериями оценки. Используя автоматизированный конвейер оценки, мы тестируем набор программирующих агентов на PRBench и анализируем их возможности по ключевым аспектам научного мышления и исполнения. Лучший агент, OpenAI Codex на базе GPT-5.3-Codex, демонстрирует средний общий балл 34%. Все агенты показали нулевой процент успешного сквозного воспроизведения, с особенно низкими результатами в точности данных и корректности кода. Мы также выявили систематические типы ошибок, включая ошибки в реализации формул, неспособность отлаживать численное моделирование и фабрикацию выходных данных. В целом, PRBench предоставляет строгий стандарт для оценки прогресса в области автономных научных исследований.

English

AI agents powered by large language models exhibit strong reasoning and problem-solving capabilities, enabling them to assist scientific research tasks such as formula derivation and code generation. However, whether these agents can reliably perform end-to-end reproduction from real scientific papers remains an open question. We introduce PRBench, a benchmark of 30 expert-curated tasks spanning 11 subfields of physics. Each task requires an agent to comprehend the methodology of a published paper, implement the corresponding algorithms from scratch, and produce quantitative results matching the original publication. Agents are provided only with the task instruction and paper content, and operate in a sandboxed execution environment. All tasks are contributed by domain experts from over 20 research groups at the School of Physics, Peking University, each grounded in a real published paper and validated through end-to-end reproduction with verified ground-truth results and detailed scoring rubrics. Using an agentified assessment pipeline, we evaluate a set of coding agents on PRBench and analyze their capabilities across key dimensions of scientific reasoning and execution. The best-performing agent, OpenAI Codex powered by GPT-5.3-Codex, achieves a mean overall score of 34%. All agents exhibit a zero end-to-end callback success rate, with particularly poor performance in data accuracy and code correctness. We further identify systematic failure modes, including errors in formula implementation, inability to debug numerical simulations, and fabrication of output data. Overall, PRBench provides a rigorous benchmark for evaluating progress toward autonomous scientific research.

PRBench: Сквозное воспроизведение научных статей в физических исследованиях

PRBench: End-to-end Paper Reproduction in Physics Research

Аннотация

Support