SciBench: Avaliando Habilidades de Resolução de Problemas Científicos de Nível Universitário em Modelos de Linguagem de Grande Escala

Resumo

Avanços recentes em modelos de linguagem de grande escala (LLMs) demonstraram progresso notável em muitos benchmarks matemáticos. No entanto, a maioria desses benchmarks apresenta apenas problemas baseados em matérias do ensino fundamental e médio, contém apenas questões de múltipla escolha e está confinada a um escopo limitado de operações aritméticas elementares. Para abordar essas questões, este artigo introduz um conjunto abrangente de benchmarks chamado SciBench, que visa examinar sistematicamente as capacidades de raciocínio necessárias para a resolução de problemas científicos complexos. O SciBench contém dois conjuntos de dados cuidadosamente curados: um conjunto aberto que apresenta uma variedade de problemas científicos de nível universitário extraídos de livros didáticos de matemática, química e física, e um conjunto fechado composto por problemas de exames de graduação em ciência da computação e matemática. Com base nesses dois conjuntos de dados, realizamos um estudo de benchmark detalhado de dois LLMs representativos com várias estratégias de prompt. Os resultados revelam que os LLMs atuais não conseguem entregar um desempenho satisfatório, com uma pontuação geral de apenas 35,80%. Além disso, por meio de um estudo detalhado com usuários, categorizamos os erros cometidos pelos LLMs em dez habilidades de resolução de problemas. Nossa análise indica que nenhuma estratégia de prompt supera significativamente as outras, e algumas estratégias que demonstram melhorias em certas habilidades de resolução de problemas resultam em declínios em outras habilidades. Prevemos que o SciBench catalisará novos desenvolvimentos nas habilidades de raciocínio dos LLMs, contribuindo, assim, para a pesquisa científica e a descoberta.

English

Recent advances in large language models (LLMs) have demonstrated notable progress on many mathematical benchmarks. However, most of these benchmarks only feature problems grounded in junior and senior high school subjects, contain only multiple-choice questions, and are confined to a limited scope of elementary arithmetic operations. To address these issues, this paper introduces an expansive benchmark suite SciBench that aims to systematically examine the reasoning capabilities required for complex scientific problem solving. SciBench contains two carefully curated datasets: an open set featuring a range of collegiate-level scientific problems drawn from mathematics, chemistry, and physics textbooks, and a closed set comprising problems from undergraduate-level exams in computer science and mathematics. Based on the two datasets, we conduct an in-depth benchmark study of two representative LLMs with various prompting strategies. The results reveal that current LLMs fall short of delivering satisfactory performance, with an overall score of merely 35.80%. Furthermore, through a detailed user study, we categorize the errors made by LLMs into ten problem-solving abilities. Our analysis indicates that no single prompting strategy significantly outperforms others and some strategies that demonstrate improvements in certain problem-solving skills result in declines in other skills. We envision that SciBench will catalyze further developments in the reasoning abilities of LLMs, thereby ultimately contributing to scientific research and discovery.

SciBench: Avaliando Habilidades de Resolução de Problemas Científicos de Nível Universitário em Modelos de Linguagem de Grande Escala

SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models

Resumo

Support