ChatPaper.aiChatPaper

SciCode: Un Benchmark di Codifica per la Ricerca Curato da Scienziati

SciCode: A Research Coding Benchmark Curated by Scientists

July 18, 2024
Autori: Minyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Minhui Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, Eliu Huerta, Hao Peng
cs.AI

Abstract

Poiché i modelli linguistici (LM) superano ormai gli esseri umani medi in molti compiti impegnativi, è diventato sempre più difficile sviluppare valutazioni stimolanti, di alta qualità e realistiche. Affrontiamo questo problema esaminando le capacità dei LM di generare codice per risolvere problemi reali di ricerca scientifica. Incorporando input da scienziati e ricercatori di IA in 16 sottocampi diversi delle scienze naturali, tra cui matematica, fisica, chimica, biologia e scienza dei materiali, abbiamo creato un benchmark di codifica curato da scienziati, denominato SciCode. I problemi in SciCode si scompongono naturalmente in più sottoproblemi, ciascuno dei quali coinvolge il richiamo di conoscenze, il ragionamento e la sintesi del codice. In totale, SciCode contiene 338 sottoproblemi decomposti da 80 problemi principali impegnativi. Offre descrizioni opzionali che specificano utili informazioni di background scientifico e soluzioni gold-standard annotate dagli scienziati, nonché casi di test per la valutazione. Claude3.5-Sonnet, il modello con le migliori prestazioni tra quelli testati, riesce a risolvere solo il 4,6% dei problemi nell'impostazione più realistica. Crediamo che SciCode dimostri sia i progressi dei LM contemporanei verso il diventare utili assistenti scientifici, sia getti luce sullo sviluppo e la valutazione dell'IA scientifica in futuro.
English
Since language models (LMs) now outperform average humans on many challenging tasks, it has become increasingly difficult to develop challenging, high-quality, and realistic evaluations. We address this issue by examining LMs' capabilities to generate code for solving real scientific research problems. Incorporating input from scientists and AI researchers in 16 diverse natural science sub-fields, including mathematics, physics, chemistry, biology, and materials science, we created a scientist-curated coding benchmark, SciCode. The problems in SciCode naturally factorize into multiple subproblems, each involving knowledge recall, reasoning, and code synthesis. In total, SciCode contains 338 subproblems decomposed from 80 challenging main problems. It offers optional descriptions specifying useful scientific background information and scientist-annotated gold-standard solutions and test cases for evaluation. Claude3.5-Sonnet, the best-performing model among those tested, can solve only 4.6% of the problems in the most realistic setting. We believe that SciCode demonstrates both contemporary LMs' progress towards becoming helpful scientific assistants and sheds light on the development and evaluation of scientific AI in the future.
PDF143November 28, 2024