SciBench: Evaluación de las Habilidades de Resolución de Problemas Científicos a Nivel Universitario en Modelos de Lenguaje de Gran Escala
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models
July 20, 2023
Autores: Xiaoxuan Wang, Ziniu Hu, Pan Lu, Yanqiao Zhu, Jieyu Zhang, Satyen Subramaniam, Arjun R. Loomba, Shichang Zhang, Yizhou Sun, Wei Wang
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un progreso notable en muchos benchmarks matemáticos. Sin embargo, la mayoría de estos benchmarks solo incluyen problemas basados en materias de secundaria y bachillerato, contienen únicamente preguntas de opción múltiple y se limitan a un ámbito reducido de operaciones aritméticas básicas. Para abordar estas limitaciones, este artículo presenta un conjunto de benchmarks extenso llamado SciBench, cuyo objetivo es examinar sistemáticamente las capacidades de razonamiento necesarias para la resolución de problemas científicos complejos. SciBench incluye dos conjuntos de datos cuidadosamente seleccionados: un conjunto abierto que presenta una variedad de problemas científicos de nivel universitario extraídos de libros de texto de matemáticas, química y física, y un conjunto cerrado que comprende problemas de exámenes de pregrado en informática y matemáticas. Basándonos en estos dos conjuntos de datos, realizamos un estudio de benchmark exhaustivo de dos LLMs representativos utilizando diversas estrategias de prompting. Los resultados revelan que los LLMs actuales no alcanzan un rendimiento satisfactorio, con una puntuación general de apenas el 35,80%. Además, mediante un estudio detallado con usuarios, categorizamos los errores cometidos por los LLMs en diez habilidades de resolución de problemas. Nuestro análisis indica que ninguna estrategia de prompting supera significativamente a las demás, y que algunas estrategias que muestran mejoras en ciertas habilidades de resolución de problemas resultan en disminuciones en otras habilidades. Visualizamos que SciBench catalizará avances adicionales en las capacidades de razonamiento de los LLMs, contribuyendo así, en última instancia, a la investigación y el descubrimiento científico.
English
Recent advances in large language models (LLMs) have demonstrated notable
progress on many mathematical benchmarks. However, most of these benchmarks
only feature problems grounded in junior and senior high school subjects,
contain only multiple-choice questions, and are confined to a limited scope of
elementary arithmetic operations. To address these issues, this paper
introduces an expansive benchmark suite SciBench that aims to systematically
examine the reasoning capabilities required for complex scientific problem
solving. SciBench contains two carefully curated datasets: an open set
featuring a range of collegiate-level scientific problems drawn from
mathematics, chemistry, and physics textbooks, and a closed set comprising
problems from undergraduate-level exams in computer science and mathematics.
Based on the two datasets, we conduct an in-depth benchmark study of two
representative LLMs with various prompting strategies. The results reveal that
current LLMs fall short of delivering satisfactory performance, with an overall
score of merely 35.80%. Furthermore, through a detailed user study, we
categorize the errors made by LLMs into ten problem-solving abilities. Our
analysis indicates that no single prompting strategy significantly outperforms
others and some strategies that demonstrate improvements in certain
problem-solving skills result in declines in other skills. We envision that
SciBench will catalyze further developments in the reasoning abilities of LLMs,
thereby ultimately contributing to scientific research and discovery.