SciBench: Оценка способностей крупных языковых моделей к решению научных задач уровня высшего образования
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models
July 20, 2023
Авторы: Xiaoxuan Wang, Ziniu Hu, Pan Lu, Yanqiao Zhu, Jieyu Zhang, Satyen Subramaniam, Arjun R. Loomba, Shichang Zhang, Yizhou Sun, Wei Wang
cs.AI
Аннотация
Последние достижения в области крупных языковых моделей (LLM) продемонстрировали значительный прогресс на многих математических тестах. Однако большинство этих тестов включают задачи, основанные на материалах средней школы, содержат только вопросы с множественным выбором и ограничены элементарными арифметическими операциями. Чтобы устранить эти недостатки, в данной статье представлен расширенный набор тестов SciBench, который направлен на систематическое изучение способностей к рассуждению, необходимых для решения сложных научных задач. SciBench включает два тщательно отобранных набора данных: открытый набор, содержащий задачи университетского уровня из учебников по математике, химии и физике, и закрытый набор, состоящий из задач из экзаменов бакалавриата по информатике и математике. На основе этих наборов данных мы проводим углубленное исследование двух репрезентативных LLM с использованием различных стратегий подсказок. Результаты показывают, что современные LLM не справляются с удовлетворительной производительностью, набирая в среднем всего 35,80%. Кроме того, с помощью детального исследования пользователей мы классифицируем ошибки, допущенные LLM, по десяти способностям к решению задач. Наш анализ показывает, что ни одна стратегия подсказок не превосходит другие значительно, а некоторые стратегии, демонстрирующие улучшения в определенных навыках решения задач, приводят к ухудшению других навыков. Мы предполагаем, что SciBench будет способствовать дальнейшему развитию способностей к рассуждению у LLM, что в конечном итоге внесет вклад в научные исследования и открытия.
English
Recent advances in large language models (LLMs) have demonstrated notable
progress on many mathematical benchmarks. However, most of these benchmarks
only feature problems grounded in junior and senior high school subjects,
contain only multiple-choice questions, and are confined to a limited scope of
elementary arithmetic operations. To address these issues, this paper
introduces an expansive benchmark suite SciBench that aims to systematically
examine the reasoning capabilities required for complex scientific problem
solving. SciBench contains two carefully curated datasets: an open set
featuring a range of collegiate-level scientific problems drawn from
mathematics, chemistry, and physics textbooks, and a closed set comprising
problems from undergraduate-level exams in computer science and mathematics.
Based on the two datasets, we conduct an in-depth benchmark study of two
representative LLMs with various prompting strategies. The results reveal that
current LLMs fall short of delivering satisfactory performance, with an overall
score of merely 35.80%. Furthermore, through a detailed user study, we
categorize the errors made by LLMs into ten problem-solving abilities. Our
analysis indicates that no single prompting strategy significantly outperforms
others and some strategies that demonstrate improvements in certain
problem-solving skills result in declines in other skills. We envision that
SciBench will catalyze further developments in the reasoning abilities of LLMs,
thereby ultimately contributing to scientific research and discovery.