SciBench: Bewertung der wissenschaftlichen Problemlösungsfähigkeiten auf College-Niveau von großen Sprachmodellen

papers.abstract

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben bemerkenswerte Fortschritte bei vielen mathematischen Benchmarks gezeigt. Die meisten dieser Benchmarks beschränken sich jedoch auf Probleme, die auf den Lehrstoff der Mittel- und Oberstufe zurückgehen, enthalten nur Multiple-Choice-Fragen und sind auf einen begrenzten Bereich elementarer arithmetischer Operationen beschränkt. Um diese Probleme zu adressieren, stellt dieses Papier ein umfangreiches Benchmark-Suite namens SciBench vor, das darauf abzielt, die für komplexes wissenschaftliches Problemlösen erforderlichen Fähigkeiten systematisch zu untersuchen. SciBench enthält zwei sorgfältig zusammengestellte Datensätze: einen offenen Datensatz mit einer Reihe von wissenschaftlichen Problemen auf College-Niveau, die aus Lehrbüchern der Mathematik, Chemie und Physik stammen, und einen geschlossenen Datensatz, der Probleme aus Prüfungen auf Bachelor-Niveau in Informatik und Mathematik umfasst. Basierend auf diesen beiden Datensätzen führen wir eine detaillierte Benchmark-Studie mit zwei repräsentativen LLMs und verschiedenen Prompting-Strategien durch. Die Ergebnisse zeigen, dass aktuelle LLMs nicht in der Lage sind, zufriedenstellende Leistungen zu erbringen, mit einer Gesamtpunktzahl von lediglich 35,80%. Darüber hinaus kategorisieren wir in einer detaillierten Benutzerstudie die von LLMs gemachten Fehler in zehn Problemlösefähigkeiten. Unsere Analyse zeigt, dass keine einzelne Prompting-Strategie signifikant besser abschneidet als andere und dass einige Strategien, die Verbesserungen bei bestimmten Problemlösefähigkeiten zeigen, zu Verschlechterungen bei anderen Fähigkeiten führen. Wir gehen davon aus, dass SciBench weitere Entwicklungen in den Fähigkeiten von LLMs zur logischen Schlussfolgerung vorantreiben wird und damit letztlich zur wissenschaftlichen Forschung und Entdeckung beitragen wird.

English

Recent advances in large language models (LLMs) have demonstrated notable progress on many mathematical benchmarks. However, most of these benchmarks only feature problems grounded in junior and senior high school subjects, contain only multiple-choice questions, and are confined to a limited scope of elementary arithmetic operations. To address these issues, this paper introduces an expansive benchmark suite SciBench that aims to systematically examine the reasoning capabilities required for complex scientific problem solving. SciBench contains two carefully curated datasets: an open set featuring a range of collegiate-level scientific problems drawn from mathematics, chemistry, and physics textbooks, and a closed set comprising problems from undergraduate-level exams in computer science and mathematics. Based on the two datasets, we conduct an in-depth benchmark study of two representative LLMs with various prompting strategies. The results reveal that current LLMs fall short of delivering satisfactory performance, with an overall score of merely 35.80%. Furthermore, through a detailed user study, we categorize the errors made by LLMs into ten problem-solving abilities. Our analysis indicates that no single prompting strategy significantly outperforms others and some strategies that demonstrate improvements in certain problem-solving skills result in declines in other skills. We envision that SciBench will catalyze further developments in the reasoning abilities of LLMs, thereby ultimately contributing to scientific research and discovery.

SciBench: Bewertung der wissenschaftlichen Problemlösungsfähigkeiten auf College-Niveau von großen Sprachmodellen

SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models

papers.abstract

Support