ChatPaper.aiChatPaper

SciCode: Набор данных для оценки кодирования в научных исследованиях, подготовленный учеными

SciCode: A Research Coding Benchmark Curated by Scientists

July 18, 2024
Авторы: Minyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Minhui Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, Eliu Huerta, Hao Peng
cs.AI

Аннотация

Поскольку языковые модели (ЯМ) в настоящее время превосходят среднего человека во многих сложных задачах, становится все сложнее разрабатывать сложные, высококачественные и реалистичные оценки. Мы решаем эту проблему, изучая способности ЯМ генерировать код для решения реальных научных исследовательских задач. Взяв во внимание мнение ученых и исследователей в области искусственного интеллекта в 16 различных естественнонаучных подобластях, включая математику, физику, химию, биологию и материаловедение, мы создали научно отобранный кодовый бенчмарк, SciCode. Задачи в SciCode естественным образом разбиваются на несколько подзадач, каждая из которых включает в себя воспоминание знаний, логическое мышление и синтез кода. В общей сложности SciCode содержит 338 подзадач, разложенных из 80 сложных основных задач. Он предлагает дополнительные описания, содержащие полезную научную информацию и научно аннотированные эталонные решения и тестовые случаи для оценки. Claude3.5-Sonnet, лучшая модель среди протестированных, способна решить лишь 4,6% задач в наиболее реалистичной ситуации. Мы считаем, что SciCode демонстрирует как прогресс современных ЯМ в становлении полезными научными помощниками, так и проливает свет на развитие и оценку научного искусственного интеллекта в будущем.
English
Since language models (LMs) now outperform average humans on many challenging tasks, it has become increasingly difficult to develop challenging, high-quality, and realistic evaluations. We address this issue by examining LMs' capabilities to generate code for solving real scientific research problems. Incorporating input from scientists and AI researchers in 16 diverse natural science sub-fields, including mathematics, physics, chemistry, biology, and materials science, we created a scientist-curated coding benchmark, SciCode. The problems in SciCode naturally factorize into multiple subproblems, each involving knowledge recall, reasoning, and code synthesis. In total, SciCode contains 338 subproblems decomposed from 80 challenging main problems. It offers optional descriptions specifying useful scientific background information and scientist-annotated gold-standard solutions and test cases for evaluation. Claude3.5-Sonnet, the best-performing model among those tested, can solve only 4.6% of the problems in the most realistic setting. We believe that SciCode demonstrates both contemporary LMs' progress towards becoming helpful scientific assistants and sheds light on the development and evaluation of scientific AI in the future.

Summary

AI-Generated Summary

PDF143November 28, 2024