초등학교 수학 문제에 대한 대형 언어 모델 성능의 면밀한 검토
A Careful Examination of Large Language Model Performance on Grade School Arithmetic
May 1, 2024
저자: Hugh Zhang, Jeff Da, Dean Lee, Vaughn Robinson, Catherine Wu, Will Song, Tiffany Zhao, Pranav Raja, Dylan Slack, Qin Lyu, Sean Hendryx, Russell Kaplan, Michele, Lunati, Summer Yue
cs.AI
초록
대규모 언어 모델(LLMs)은 수학적 추론 분야의 많은 벤치마크에서 인상적인 성과를 거두었습니다. 그러나 이러한 성과 중 일부가 실제 추론 능력이 아니라, 벤치마크 질문과 유사한 데이터가 학습 데이터에 유출된 데이터셋 오염을 반영하고 있다는 우려가 커지고 있습니다. 이 주장을 엄밀히 조사하기 위해, 우리는 Grade School Math 1000(GSM1k)을 제작했습니다. GSM1k은 초등 수학적 추론을 측정하는 데 있어 표준으로 여겨지는 GSM8k 벤치마크의 스타일과 복잡성을 반영하도록 설계되었습니다. 우리는 두 벤치마크가 인간의 문제 해결률, 해결 단계 수, 답변의 크기 등 중요한 지표에서 비교 가능하도록 보장했습니다. GSM1k에서 주요 오픈소스 및 클로즈드소스 LLMs을 평가한 결과, 최대 13%의 정확도 하락을 관찰했으며, 특히 Phi와 Mistral과 같은 모델군은 거의 모든 모델 크기에서 체계적인 과적합 증거를 보였습니다. 반면, 최첨단 모델들(예: Gemini/GPT/Claude)은 과적합의 최소한의 징후만을 보였습니다. 추가 분석 결과, 모델이 GSM8k의 예제를 생성할 확률과 GSM8k와 GSM1k 간의 성능 차이 사이에 양의 상관관계(Spearman's r^2=0.32)가 있음을 발견했는데, 이는 많은 모델이 GSM8k를 부분적으로 암기했을 가능성을 시사합니다.
English
Large language models (LLMs) have achieved impressive success on many
benchmarks for mathematical reasoning. However, there is growing concern that
some of this performance actually reflects dataset contamination, where data
closely resembling benchmark questions leaks into the training data, instead of
true reasoning ability. To investigate this claim rigorously, we commission
Grade School Math 1000 (GSM1k). GSM1k is designed to mirror the style and
complexity of the established GSM8k benchmark, the gold standard for measuring
elementary mathematical reasoning. We ensure that the two benchmarks are
comparable across important metrics such as human solve rates, number of steps
in solution, answer magnitude, and more. When evaluating leading open- and
closed-source LLMs on GSM1k, we observe accuracy drops of up to 13%, with
several families of models (e.g., Phi and Mistral) showing evidence of
systematic overfitting across almost all model sizes. At the same time, many
models, especially those on the frontier, (e.g., Gemini/GPT/Claude) show
minimal signs of overfitting. Further analysis suggests a positive relationship
(Spearman's r^2=0.32) between a model's probability of generating an example
from GSM8k and its performance gap between GSM8k and GSM1k, suggesting that
many models may have partially memorized GSM8k.Summary
AI-Generated Summary