SciBench: 대학 수준 과학 문제 해결 능력에 대한 대규모 언어 모델 평가
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models
July 20, 2023
저자: Xiaoxuan Wang, Ziniu Hu, Pan Lu, Yanqiao Zhu, Jieyu Zhang, Satyen Subramaniam, Arjun R. Loomba, Shichang Zhang, Yizhou Sun, Wei Wang
cs.AI
초록
최근 대규모 언어 모델(LLM)의 발전은 많은 수학 벤치마크에서 주목할 만한 진전을 보여주었습니다. 그러나 이러한 벤치마크의 대부분은 중고등학교 교과 과정에 기반한 문제만을 포함하고 있으며, 객관식 문제로만 구성되어 있고, 기본적인 산술 연산의 제한된 범위에 국한되어 있습니다. 이러한 문제를 해결하기 위해, 본 논문은 복잡한 과학적 문제 해결에 필요한 추론 능력을 체계적으로 검토하기 위한 포괄적인 벤치마크 제품군인 SciBench를 소개합니다. SciBench는 두 가지 신중하게 선별된 데이터셋을 포함합니다: 하나는 수학, 화학, 물리학 교과서에서 추출한 대학 수준의 다양한 과학 문제를 포함한 오픈셋이고, 다른 하나는 컴퓨터 과학과 수학의 학부 수준 시험 문제로 구성된 클로즈드셋입니다. 이 두 데이터셋을 기반으로, 우리는 다양한 프롬프트 전략을 사용하여 두 가지 대표적인 LLM에 대한 심층 벤치마크 연구를 수행했습니다. 결과는 현재의 LLM이 만족스러운 성능을 보이지 못하며, 전체 점수가 단지 35.80%에 불과함을 보여줍니다. 더 나아가, 상세한 사용자 연구를 통해 LLM이 범한 오류를 열 가지 문제 해결 능력으로 분류했습니다. 우리의 분석은 어떤 단일 프롬프트 전략도 다른 전략들을 크게 능가하지 않으며, 특정 문제 해결 능력에서 개선을 보이는 전략들이 다른 능력에서는 저하를 초래한다는 것을 나타냅니다. 우리는 SciBench가 LLM의 추론 능력 발전을 촉진하여 궁극적으로 과학 연구와 발견에 기여할 것으로 기대합니다.
English
Recent advances in large language models (LLMs) have demonstrated notable
progress on many mathematical benchmarks. However, most of these benchmarks
only feature problems grounded in junior and senior high school subjects,
contain only multiple-choice questions, and are confined to a limited scope of
elementary arithmetic operations. To address these issues, this paper
introduces an expansive benchmark suite SciBench that aims to systematically
examine the reasoning capabilities required for complex scientific problem
solving. SciBench contains two carefully curated datasets: an open set
featuring a range of collegiate-level scientific problems drawn from
mathematics, chemistry, and physics textbooks, and a closed set comprising
problems from undergraduate-level exams in computer science and mathematics.
Based on the two datasets, we conduct an in-depth benchmark study of two
representative LLMs with various prompting strategies. The results reveal that
current LLMs fall short of delivering satisfactory performance, with an overall
score of merely 35.80%. Furthermore, through a detailed user study, we
categorize the errors made by LLMs into ten problem-solving abilities. Our
analysis indicates that no single prompting strategy significantly outperforms
others and some strategies that demonstrate improvements in certain
problem-solving skills result in declines in other skills. We envision that
SciBench will catalyze further developments in the reasoning abilities of LLMs,
thereby ultimately contributing to scientific research and discovery.