ChatPaper.aiChatPaper

SciCode : Un benchmark de codage de recherche élaboré par des scientifiques

SciCode: A Research Coding Benchmark Curated by Scientists

July 18, 2024
Auteurs: Minyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Minhui Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, Eliu Huerta, Hao Peng
cs.AI

Résumé

Étant donné que les modèles de langage (LMs) surpassent désormais les humains moyens sur de nombreuses tâches complexes, il est devenu de plus en plus difficile de développer des évaluations exigeantes, de haute qualité et réalistes. Nous abordons cette problématique en examinant les capacités des LMs à générer du code pour résoudre des problèmes réels de recherche scientifique. En intégrant les contributions de scientifiques et de chercheurs en IA dans 16 sous-domaines variés des sciences naturelles, incluant les mathématiques, la physique, la chimie, la biologie et la science des matériaux, nous avons créé un benchmark de codage évalué par des scientifiques, SciCode. Les problèmes de SciCode se décomposent naturellement en plusieurs sous-problèmes, chacun impliquant la récupération de connaissances, le raisonnement et la synthèse de code. Au total, SciCode contient 338 sous-problèmes décomposés à partir de 80 problèmes principaux complexes. Il propose des descriptions optionnelles spécifiant des informations scientifiques utiles, ainsi que des solutions de référence annotées par des scientifiques et des cas de test pour l'évaluation. Claude3.5-Sonnet, le modèle le plus performant parmi ceux testés, ne parvient à résoudre que 4,6 % des problèmes dans le cadre le plus réaliste. Nous pensons que SciCode démontre à la fois les progrès actuels des LMs vers leur rôle d'assistants scientifiques utiles et éclaire le développement et l'évaluation de l'IA scientifique à l'avenir.
English
Since language models (LMs) now outperform average humans on many challenging tasks, it has become increasingly difficult to develop challenging, high-quality, and realistic evaluations. We address this issue by examining LMs' capabilities to generate code for solving real scientific research problems. Incorporating input from scientists and AI researchers in 16 diverse natural science sub-fields, including mathematics, physics, chemistry, biology, and materials science, we created a scientist-curated coding benchmark, SciCode. The problems in SciCode naturally factorize into multiple subproblems, each involving knowledge recall, reasoning, and code synthesis. In total, SciCode contains 338 subproblems decomposed from 80 challenging main problems. It offers optional descriptions specifying useful scientific background information and scientist-annotated gold-standard solutions and test cases for evaluation. Claude3.5-Sonnet, the best-performing model among those tested, can solve only 4.6% of the problems in the most realistic setting. We believe that SciCode demonstrates both contemporary LMs' progress towards becoming helpful scientific assistants and sheds light on the development and evaluation of scientific AI in the future.

Summary

AI-Generated Summary

PDF143November 28, 2024