SciBench: Evaluación de las Habilidades de Resolución de Problemas Científicos a Nivel Universitario en Modelos de Lenguaje de Gran Escala

Resumen

Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un progreso notable en muchos benchmarks matemáticos. Sin embargo, la mayoría de estos benchmarks solo incluyen problemas basados en materias de secundaria y bachillerato, contienen únicamente preguntas de opción múltiple y se limitan a un ámbito reducido de operaciones aritméticas básicas. Para abordar estas limitaciones, este artículo presenta un conjunto de benchmarks extenso llamado SciBench, cuyo objetivo es examinar sistemáticamente las capacidades de razonamiento necesarias para la resolución de problemas científicos complejos. SciBench incluye dos conjuntos de datos cuidadosamente seleccionados: un conjunto abierto que presenta una variedad de problemas científicos de nivel universitario extraídos de libros de texto de matemáticas, química y física, y un conjunto cerrado que comprende problemas de exámenes de pregrado en informática y matemáticas. Basándonos en estos dos conjuntos de datos, realizamos un estudio de benchmark exhaustivo de dos LLMs representativos utilizando diversas estrategias de prompting. Los resultados revelan que los LLMs actuales no alcanzan un rendimiento satisfactorio, con una puntuación general de apenas el 35,80%. Además, mediante un estudio detallado con usuarios, categorizamos los errores cometidos por los LLMs en diez habilidades de resolución de problemas. Nuestro análisis indica que ninguna estrategia de prompting supera significativamente a las demás, y que algunas estrategias que muestran mejoras en ciertas habilidades de resolución de problemas resultan en disminuciones en otras habilidades. Visualizamos que SciBench catalizará avances adicionales en las capacidades de razonamiento de los LLMs, contribuyendo así, en última instancia, a la investigación y el descubrimiento científico.

English

Recent advances in large language models (LLMs) have demonstrated notable progress on many mathematical benchmarks. However, most of these benchmarks only feature problems grounded in junior and senior high school subjects, contain only multiple-choice questions, and are confined to a limited scope of elementary arithmetic operations. To address these issues, this paper introduces an expansive benchmark suite SciBench that aims to systematically examine the reasoning capabilities required for complex scientific problem solving. SciBench contains two carefully curated datasets: an open set featuring a range of collegiate-level scientific problems drawn from mathematics, chemistry, and physics textbooks, and a closed set comprising problems from undergraduate-level exams in computer science and mathematics. Based on the two datasets, we conduct an in-depth benchmark study of two representative LLMs with various prompting strategies. The results reveal that current LLMs fall short of delivering satisfactory performance, with an overall score of merely 35.80%. Furthermore, through a detailed user study, we categorize the errors made by LLMs into ten problem-solving abilities. Our analysis indicates that no single prompting strategy significantly outperforms others and some strategies that demonstrate improvements in certain problem-solving skills result in declines in other skills. We envision that SciBench will catalyze further developments in the reasoning abilities of LLMs, thereby ultimately contributing to scientific research and discovery.

SciBench: Evaluación de las Habilidades de Resolución de Problemas Científicos a Nivel Universitario en Modelos de Lenguaje de Gran Escala

SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models

Resumen

Support