SciCode: Un referente de codificación de investigación curado por científicos
SciCode: A Research Coding Benchmark Curated by Scientists
July 18, 2024
Autores: Minyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Minhui Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, Eliu Huerta, Hao Peng
cs.AI
Resumen
Dado que los modelos de lenguaje (LMs) superan ahora a los humanos promedio en muchas tareas desafiantes, se ha vuelto cada vez más difícil desarrollar evaluaciones desafiantes, de alta calidad y realistas. Abordamos este problema examinando las capacidades de los LMs para generar código que resuelva problemas reales de investigación científica. Incorporando aportes de científicos e investigadores de IA en 16 diversos subcampos de las ciencias naturales, incluyendo matemáticas, física, química, biología y ciencia de materiales, creamos un banco de pruebas de codificación curado por científicos, SciCode. Los problemas en SciCode se factorizan naturalmente en múltiples subproblemas, cada uno implicando recuperación de conocimiento, razonamiento y síntesis de código. En total, SciCode contiene 338 subproblemas descompuestos de 80 problemas principales desafiantes. Ofrece descripciones opcionales que especifican información útil de antecedentes científicos y soluciones estándar de oro anotadas por científicos y casos de prueba para evaluación. Claude3.5-Sonnet, el modelo de mejor rendimiento entre los probados, solo puede resolver el 4.6% de los problemas en el escenario más realista. Creemos que SciCode demuestra tanto el progreso de los LMs contemporáneos hacia convertirse en asistentes científicos útiles como arroja luz sobre el desarrollo y la evaluación de la IA científica en el futuro.
English
Since language models (LMs) now outperform average humans on many challenging
tasks, it has become increasingly difficult to develop challenging,
high-quality, and realistic evaluations. We address this issue by examining
LMs' capabilities to generate code for solving real scientific research
problems. Incorporating input from scientists and AI researchers in 16 diverse
natural science sub-fields, including mathematics, physics, chemistry, biology,
and materials science, we created a scientist-curated coding benchmark,
SciCode. The problems in SciCode naturally factorize into multiple subproblems,
each involving knowledge recall, reasoning, and code synthesis. In total,
SciCode contains 338 subproblems decomposed from 80 challenging main problems.
It offers optional descriptions specifying useful scientific background
information and scientist-annotated gold-standard solutions and test cases for
evaluation. Claude3.5-Sonnet, the best-performing model among those tested, can
solve only 4.6% of the problems in the most realistic setting. We believe that
SciCode demonstrates both contemporary LMs' progress towards becoming helpful
scientific assistants and sheds light on the development and evaluation of
scientific AI in the future.Summary
AI-Generated Summary