SciBench: Bewertung der wissenschaftlichen Problemlösungsfähigkeiten auf College-Niveau von großen Sprachmodellen
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models
July 20, 2023
Autoren: Xiaoxuan Wang, Ziniu Hu, Pan Lu, Yanqiao Zhu, Jieyu Zhang, Satyen Subramaniam, Arjun R. Loomba, Shichang Zhang, Yizhou Sun, Wei Wang
cs.AI
Zusammenfassung
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben bemerkenswerte Fortschritte bei vielen mathematischen Benchmarks gezeigt. Die meisten dieser Benchmarks beschränken sich jedoch auf Probleme, die auf den Lehrstoff der Mittel- und Oberstufe zurückgehen, enthalten nur Multiple-Choice-Fragen und sind auf einen begrenzten Bereich elementarer arithmetischer Operationen beschränkt. Um diese Probleme zu adressieren, stellt dieses Papier ein umfangreiches Benchmark-Suite namens SciBench vor, das darauf abzielt, die für komplexes wissenschaftliches Problemlösen erforderlichen Fähigkeiten systematisch zu untersuchen. SciBench enthält zwei sorgfältig zusammengestellte Datensätze: einen offenen Datensatz mit einer Reihe von wissenschaftlichen Problemen auf College-Niveau, die aus Lehrbüchern der Mathematik, Chemie und Physik stammen, und einen geschlossenen Datensatz, der Probleme aus Prüfungen auf Bachelor-Niveau in Informatik und Mathematik umfasst. Basierend auf diesen beiden Datensätzen führen wir eine detaillierte Benchmark-Studie mit zwei repräsentativen LLMs und verschiedenen Prompting-Strategien durch. Die Ergebnisse zeigen, dass aktuelle LLMs nicht in der Lage sind, zufriedenstellende Leistungen zu erbringen, mit einer Gesamtpunktzahl von lediglich 35,80%. Darüber hinaus kategorisieren wir in einer detaillierten Benutzerstudie die von LLMs gemachten Fehler in zehn Problemlösefähigkeiten. Unsere Analyse zeigt, dass keine einzelne Prompting-Strategie signifikant besser abschneidet als andere und dass einige Strategien, die Verbesserungen bei bestimmten Problemlösefähigkeiten zeigen, zu Verschlechterungen bei anderen Fähigkeiten führen. Wir gehen davon aus, dass SciBench weitere Entwicklungen in den Fähigkeiten von LLMs zur logischen Schlussfolgerung vorantreiben wird und damit letztlich zur wissenschaftlichen Forschung und Entdeckung beitragen wird.
English
Recent advances in large language models (LLMs) have demonstrated notable
progress on many mathematical benchmarks. However, most of these benchmarks
only feature problems grounded in junior and senior high school subjects,
contain only multiple-choice questions, and are confined to a limited scope of
elementary arithmetic operations. To address these issues, this paper
introduces an expansive benchmark suite SciBench that aims to systematically
examine the reasoning capabilities required for complex scientific problem
solving. SciBench contains two carefully curated datasets: an open set
featuring a range of collegiate-level scientific problems drawn from
mathematics, chemistry, and physics textbooks, and a closed set comprising
problems from undergraduate-level exams in computer science and mathematics.
Based on the two datasets, we conduct an in-depth benchmark study of two
representative LLMs with various prompting strategies. The results reveal that
current LLMs fall short of delivering satisfactory performance, with an overall
score of merely 35.80%. Furthermore, through a detailed user study, we
categorize the errors made by LLMs into ten problem-solving abilities. Our
analysis indicates that no single prompting strategy significantly outperforms
others and some strategies that demonstrate improvements in certain
problem-solving skills result in declines in other skills. We envision that
SciBench will catalyze further developments in the reasoning abilities of LLMs,
thereby ultimately contributing to scientific research and discovery.