ChatPaper.aiChatPaper

SciCode: Ein von Wissenschaftlern kuratierter Forschungs-Codierungsmaßstab

SciCode: A Research Coding Benchmark Curated by Scientists

July 18, 2024
Autoren: Minyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Minhui Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, Eliu Huerta, Hao Peng
cs.AI

Zusammenfassung

Da Sprachmodelle (LMs) nun viele anspruchsvolle Aufgaben besser bewältigen als durchschnittliche Menschen, wird es zunehmend schwieriger, anspruchsvolle, hochwertige und realistische Bewertungen zu entwickeln. Wir gehen dieses Problem an, indem wir die Fähigkeiten von LMs untersuchen, Code zur Lösung realer wissenschaftlicher Forschungsprobleme zu generieren. Unter Einbeziehung von Eingaben von Wissenschaftlern und KI-Forschern in 16 verschiedenen naturwissenschaftlichen Teilbereichen, darunter Mathematik, Physik, Chemie, Biologie und Materialwissenschaft, haben wir einen von Wissenschaftlern kuratierten Codierungs-Benchmark namens SciCode erstellt. Die Probleme in SciCode lassen sich natürlich in mehrere Teilprobleme zerlegen, die jeweils Wissensabruf, Schlussfolgerungen und Codesynthese beinhalten. Insgesamt enthält SciCode 338 Teilprobleme, die aus 80 anspruchsvollen Hauptproblemen abgeleitet sind. Es bietet optionale Beschreibungen, die nützliche wissenschaftliche Hintergrundinformationen angeben, sowie von Wissenschaftlern annotierte Goldstandard-Lösungen und Testfälle zur Bewertung. Claude3.5-Sonnet, das am besten abschneidende Modell unter den getesteten, kann nur 4,6 % der Probleme in der realistischsten Umgebung lösen. Wir sind der Meinung, dass SciCode sowohl den Fortschritt zeitgenössischer LMs bei der Entwicklung zu hilfreichen wissenschaftlichen Assistenten zeigt als auch Einblicke in die Entwicklung und Bewertung wissenschaftlicher KI in der Zukunft gewährt.
English
Since language models (LMs) now outperform average humans on many challenging tasks, it has become increasingly difficult to develop challenging, high-quality, and realistic evaluations. We address this issue by examining LMs' capabilities to generate code for solving real scientific research problems. Incorporating input from scientists and AI researchers in 16 diverse natural science sub-fields, including mathematics, physics, chemistry, biology, and materials science, we created a scientist-curated coding benchmark, SciCode. The problems in SciCode naturally factorize into multiple subproblems, each involving knowledge recall, reasoning, and code synthesis. In total, SciCode contains 338 subproblems decomposed from 80 challenging main problems. It offers optional descriptions specifying useful scientific background information and scientist-annotated gold-standard solutions and test cases for evaluation. Claude3.5-Sonnet, the best-performing model among those tested, can solve only 4.6% of the problems in the most realistic setting. We believe that SciCode demonstrates both contemporary LMs' progress towards becoming helpful scientific assistants and sheds light on the development and evaluation of scientific AI in the future.

Summary

AI-Generated Summary

PDF143November 28, 2024