SciCode: Um Benchmark de Codificação de Pesquisa Curado por Cientistas
SciCode: A Research Coding Benchmark Curated by Scientists
July 18, 2024
Autores: Minyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Minhui Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, Eliu Huerta, Hao Peng
cs.AI
Resumo
Uma vez que os modelos de linguagem (LMs) agora superam humanos médios em muitas tarefas desafiadoras, tem se tornado cada vez mais difícil desenvolver avaliações desafiadoras, de alta qualidade e realistas. Abordamos essa questão examinando as capacidades dos LMs em gerar código para resolver problemas reais de pesquisa científica. Incorporando contribuições de cientistas e pesquisadores de IA em 16 diversos subcampos das ciências naturais, incluindo matemática, física, química, biologia e ciência dos materiais, criamos um benchmark de codificação curado por cientistas, o SciCode. Os problemas no SciCode naturalmente se dividem em múltiplos subproblemas, cada um envolvendo recordação de conhecimento, raciocínio e síntese de código. No total, o SciCode contém 338 subproblemas decompostos de 80 problemas principais desafiadores. Ele oferece descrições opcionais especificando informações úteis de contexto científico e soluções padrão-ouro anotadas por cientistas e casos de teste para avaliação. O modelo Claude3.5-Sonnet, o melhor desempenho entre os testados, consegue resolver apenas 4,6% dos problemas no cenário mais realista. Acreditamos que o SciCode demonstra tanto o progresso dos LMs contemporâneos em se tornarem assistentes científicos úteis quanto lança luz sobre o desenvolvimento e avaliação da IA científica no futuro.
English
Since language models (LMs) now outperform average humans on many challenging
tasks, it has become increasingly difficult to develop challenging,
high-quality, and realistic evaluations. We address this issue by examining
LMs' capabilities to generate code for solving real scientific research
problems. Incorporating input from scientists and AI researchers in 16 diverse
natural science sub-fields, including mathematics, physics, chemistry, biology,
and materials science, we created a scientist-curated coding benchmark,
SciCode. The problems in SciCode naturally factorize into multiple subproblems,
each involving knowledge recall, reasoning, and code synthesis. In total,
SciCode contains 338 subproblems decomposed from 80 challenging main problems.
It offers optional descriptions specifying useful scientific background
information and scientist-annotated gold-standard solutions and test cases for
evaluation. Claude3.5-Sonnet, the best-performing model among those tested, can
solve only 4.6% of the problems in the most realistic setting. We believe that
SciCode demonstrates both contemporary LMs' progress towards becoming helpful
scientific assistants and sheds light on the development and evaluation of
scientific AI in the future.