SciBench: Het evalueren van wetenschappelijke probleemoplossende vaardigheden op universitair niveau van grote taalmodellen

Samenvatting

Recente vooruitgang in grote taalmodellen (LLMs) heeft aanzienlijke vooruitgang laten zien op veel wiskundige benchmarks. De meeste van deze benchmarks bevatten echter alleen problemen die gebaseerd zijn op onderwerpen uit de onderbouw en bovenbouw van het middelbaar onderwijs, bestaan uitsluitend uit meerkeuzevragen, en zijn beperkt tot een kleine reeks elementaire rekenkundige bewerkingen. Om deze problemen aan te pakken, introduceert dit artikel een uitgebreide benchmark suite genaamd SciBench, die als doel heeft de redeneervaardigheden die nodig zijn voor complex wetenschappelijk probleemoplossen systematisch te onderzoeken. SciBench bevat twee zorgvuldig samengestelde datasets: een open set met een reeks wetenschappelijke problemen op universitair niveau, afkomstig uit wiskunde-, scheikunde- en natuurkundeleerboeken, en een gesloten set bestaande uit problemen uit tentamens op bachelorniveau in informatica en wiskunde. Op basis van deze twee datasets voeren we een diepgaande benchmarkstudie uit van twee representatieve LLMs met verschillende promptingstrategieën. De resultaten laten zien dat huidige LLMs tekortschieten in het leveren van bevredigende prestaties, met een totaalscore van slechts 35,80%. Bovendien categoriseren we via een gedetailleerde gebruikersstudie de fouten die door LLMs worden gemaakt in tien probleemoplossende vaardigheden. Onze analyse geeft aan dat geen enkele promptingstrategie significant beter presteert dan andere, en dat sommige strategieën die verbeteringen laten zien in bepaalde probleemoplossende vaardigheden, leiden tot achteruitgang in andere vaardigheden. Wij voorzien dat SciBench verdere ontwikkelingen in de redeneervaardigheden van LLMs zal stimuleren, en daarmee uiteindelijk zal bijdragen aan wetenschappelijk onderzoek en ontdekkingen.

English

Recent advances in large language models (LLMs) have demonstrated notable progress on many mathematical benchmarks. However, most of these benchmarks only feature problems grounded in junior and senior high school subjects, contain only multiple-choice questions, and are confined to a limited scope of elementary arithmetic operations. To address these issues, this paper introduces an expansive benchmark suite SciBench that aims to systematically examine the reasoning capabilities required for complex scientific problem solving. SciBench contains two carefully curated datasets: an open set featuring a range of collegiate-level scientific problems drawn from mathematics, chemistry, and physics textbooks, and a closed set comprising problems from undergraduate-level exams in computer science and mathematics. Based on the two datasets, we conduct an in-depth benchmark study of two representative LLMs with various prompting strategies. The results reveal that current LLMs fall short of delivering satisfactory performance, with an overall score of merely 35.80%. Furthermore, through a detailed user study, we categorize the errors made by LLMs into ten problem-solving abilities. Our analysis indicates that no single prompting strategy significantly outperforms others and some strategies that demonstrate improvements in certain problem-solving skills result in declines in other skills. We envision that SciBench will catalyze further developments in the reasoning abilities of LLMs, thereby ultimately contributing to scientific research and discovery.

SciBench: Het evalueren van wetenschappelijke probleemoplossende vaardigheden op universitair niveau van grote taalmodellen

SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models

Samenvatting

Support