SciBench: Avaliando Habilidades de Resolução de Problemas Científicos de Nível Universitário em Modelos de Linguagem de Grande Escala
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models
July 20, 2023
Autores: Xiaoxuan Wang, Ziniu Hu, Pan Lu, Yanqiao Zhu, Jieyu Zhang, Satyen Subramaniam, Arjun R. Loomba, Shichang Zhang, Yizhou Sun, Wei Wang
cs.AI
Resumo
Avanços recentes em modelos de linguagem de grande escala (LLMs) demonstraram progresso notável em muitos benchmarks matemáticos. No entanto, a maioria desses benchmarks apresenta apenas problemas baseados em matérias do ensino fundamental e médio, contém apenas questões de múltipla escolha e está confinada a um escopo limitado de operações aritméticas elementares. Para abordar essas questões, este artigo introduz um conjunto abrangente de benchmarks chamado SciBench, que visa examinar sistematicamente as capacidades de raciocínio necessárias para a resolução de problemas científicos complexos. O SciBench contém dois conjuntos de dados cuidadosamente curados: um conjunto aberto que apresenta uma variedade de problemas científicos de nível universitário extraídos de livros didáticos de matemática, química e física, e um conjunto fechado composto por problemas de exames de graduação em ciência da computação e matemática. Com base nesses dois conjuntos de dados, realizamos um estudo de benchmark detalhado de dois LLMs representativos com várias estratégias de prompt. Os resultados revelam que os LLMs atuais não conseguem entregar um desempenho satisfatório, com uma pontuação geral de apenas 35,80%. Além disso, por meio de um estudo detalhado com usuários, categorizamos os erros cometidos pelos LLMs em dez habilidades de resolução de problemas. Nossa análise indica que nenhuma estratégia de prompt supera significativamente as outras, e algumas estratégias que demonstram melhorias em certas habilidades de resolução de problemas resultam em declínios em outras habilidades. Prevemos que o SciBench catalisará novos desenvolvimentos nas habilidades de raciocínio dos LLMs, contribuindo, assim, para a pesquisa científica e a descoberta.
English
Recent advances in large language models (LLMs) have demonstrated notable
progress on many mathematical benchmarks. However, most of these benchmarks
only feature problems grounded in junior and senior high school subjects,
contain only multiple-choice questions, and are confined to a limited scope of
elementary arithmetic operations. To address these issues, this paper
introduces an expansive benchmark suite SciBench that aims to systematically
examine the reasoning capabilities required for complex scientific problem
solving. SciBench contains two carefully curated datasets: an open set
featuring a range of collegiate-level scientific problems drawn from
mathematics, chemistry, and physics textbooks, and a closed set comprising
problems from undergraduate-level exams in computer science and mathematics.
Based on the two datasets, we conduct an in-depth benchmark study of two
representative LLMs with various prompting strategies. The results reveal that
current LLMs fall short of delivering satisfactory performance, with an overall
score of merely 35.80%. Furthermore, through a detailed user study, we
categorize the errors made by LLMs into ten problem-solving abilities. Our
analysis indicates that no single prompting strategy significantly outperforms
others and some strategies that demonstrate improvements in certain
problem-solving skills result in declines in other skills. We envision that
SciBench will catalyze further developments in the reasoning abilities of LLMs,
thereby ultimately contributing to scientific research and discovery.