SciCode: Een Onderzoekscoderingbenchmark Samengesteld door Wetenschappers
SciCode: A Research Coding Benchmark Curated by Scientists
July 18, 2024
Auteurs: Minyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Minhui Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, Eliu Huerta, Hao Peng
cs.AI
Samenvatting
Aangezien taalmodelen (LMs) nu beter presteren dan de gemiddelde mens op veel uitdagende taken, is het steeds moeilijker geworden om uitdagende, hoogwaardige en realistische evaluaties te ontwikkelen. Wij pakken dit probleem aan door de mogelijkheden van LMs te onderzoeken om code te genereren voor het oplossen van echte wetenschappelijke onderzoeksproblemen. Met input van wetenschappers en AI-onderzoekers uit 16 diverse subgebieden van de natuurwetenschappen, waaronder wiskunde, natuurkunde, scheikunde, biologie en materiaalkunde, hebben we een door wetenschappers samengestelde codeerbenchmark gemaakt, SciCode. De problemen in SciCode zijn van nature opgedeeld in meerdere subproblemen, waarbij elk kennisrecall, redeneren en codesynthese omvat. In totaal bevat SciCode 338 subproblemen die zijn afgeleid van 80 uitdagende hoofdproblemen. Het biedt optionele beschrijvingen met nuttige wetenschappelijke achtergrondinformatie en door wetenschappers geannoteerde gouden standaardoplossingen en testgevallen voor evaluatie. Claude3.5-Sonnet, het best presterende model van de geteste modellen, kan slechts 4,6% van de problemen oplossen in de meest realistische setting. Wij geloven dat SciCode zowel de vooruitgang van hedendaagse LMs toont in de richting van het worden van nuttige wetenschappelijke assistenten, als inzicht biedt in de ontwikkeling en evaluatie van wetenschappelijke AI in de toekomst.
English
Since language models (LMs) now outperform average humans on many challenging
tasks, it has become increasingly difficult to develop challenging,
high-quality, and realistic evaluations. We address this issue by examining
LMs' capabilities to generate code for solving real scientific research
problems. Incorporating input from scientists and AI researchers in 16 diverse
natural science sub-fields, including mathematics, physics, chemistry, biology,
and materials science, we created a scientist-curated coding benchmark,
SciCode. The problems in SciCode naturally factorize into multiple subproblems,
each involving knowledge recall, reasoning, and code synthesis. In total,
SciCode contains 338 subproblems decomposed from 80 challenging main problems.
It offers optional descriptions specifying useful scientific background
information and scientist-annotated gold-standard solutions and test cases for
evaluation. Claude3.5-Sonnet, the best-performing model among those tested, can
solve only 4.6% of the problems in the most realistic setting. We believe that
SciCode demonstrates both contemporary LMs' progress towards becoming helpful
scientific assistants and sheds light on the development and evaluation of
scientific AI in the future.