ChatPaper.aiChatPaper

SciBench: Оценка способностей крупных языковых моделей к решению научных задач уровня высшего образования

SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models

July 20, 2023
Авторы: Xiaoxuan Wang, Ziniu Hu, Pan Lu, Yanqiao Zhu, Jieyu Zhang, Satyen Subramaniam, Arjun R. Loomba, Shichang Zhang, Yizhou Sun, Wei Wang
cs.AI

Аннотация

Последние достижения в области крупных языковых моделей (LLM) продемонстрировали значительный прогресс на многих математических тестах. Однако большинство этих тестов включают задачи, основанные на материалах средней школы, содержат только вопросы с множественным выбором и ограничены элементарными арифметическими операциями. Чтобы устранить эти недостатки, в данной статье представлен расширенный набор тестов SciBench, который направлен на систематическое изучение способностей к рассуждению, необходимых для решения сложных научных задач. SciBench включает два тщательно отобранных набора данных: открытый набор, содержащий задачи университетского уровня из учебников по математике, химии и физике, и закрытый набор, состоящий из задач из экзаменов бакалавриата по информатике и математике. На основе этих наборов данных мы проводим углубленное исследование двух репрезентативных LLM с использованием различных стратегий подсказок. Результаты показывают, что современные LLM не справляются с удовлетворительной производительностью, набирая в среднем всего 35,80%. Кроме того, с помощью детального исследования пользователей мы классифицируем ошибки, допущенные LLM, по десяти способностям к решению задач. Наш анализ показывает, что ни одна стратегия подсказок не превосходит другие значительно, а некоторые стратегии, демонстрирующие улучшения в определенных навыках решения задач, приводят к ухудшению других навыков. Мы предполагаем, что SciBench будет способствовать дальнейшему развитию способностей к рассуждению у LLM, что в конечном итоге внесет вклад в научные исследования и открытия.
English
Recent advances in large language models (LLMs) have demonstrated notable progress on many mathematical benchmarks. However, most of these benchmarks only feature problems grounded in junior and senior high school subjects, contain only multiple-choice questions, and are confined to a limited scope of elementary arithmetic operations. To address these issues, this paper introduces an expansive benchmark suite SciBench that aims to systematically examine the reasoning capabilities required for complex scientific problem solving. SciBench contains two carefully curated datasets: an open set featuring a range of collegiate-level scientific problems drawn from mathematics, chemistry, and physics textbooks, and a closed set comprising problems from undergraduate-level exams in computer science and mathematics. Based on the two datasets, we conduct an in-depth benchmark study of two representative LLMs with various prompting strategies. The results reveal that current LLMs fall short of delivering satisfactory performance, with an overall score of merely 35.80%. Furthermore, through a detailed user study, we categorize the errors made by LLMs into ten problem-solving abilities. Our analysis indicates that no single prompting strategy significantly outperforms others and some strategies that demonstrate improvements in certain problem-solving skills result in declines in other skills. We envision that SciBench will catalyze further developments in the reasoning abilities of LLMs, thereby ultimately contributing to scientific research and discovery.
PDF90December 15, 2024