초등학교 수학 문제에 대한 대형 언어 모델 성능의 면밀한 검토A Careful Examination of Large Language Model Performance on Grade
School Arithmetic
대규모 언어 모델(LLMs)은 수학적 추론 분야의 많은 벤치마크에서 인상적인 성과를 거두었습니다. 그러나 이러한 성과 중 일부가 실제 추론 능력이 아니라, 벤치마크 질문과 유사한 데이터가 학습 데이터에 유출된 데이터셋 오염을 반영하고 있다는 우려가 커지고 있습니다. 이 주장을 엄밀히 조사하기 위해, 우리는 Grade School Math 1000(GSM1k)을 제작했습니다. GSM1k은 초등 수학적 추론을 측정하는 데 있어 표준으로 여겨지는 GSM8k 벤치마크의 스타일과 복잡성을 반영하도록 설계되었습니다. 우리는 두 벤치마크가 인간의 문제 해결률, 해결 단계 수, 답변의 크기 등 중요한 지표에서 비교 가능하도록 보장했습니다. GSM1k에서 주요 오픈소스 및 클로즈드소스 LLMs을 평가한 결과, 최대 13%의 정확도 하락을 관찰했으며, 특히 Phi와 Mistral과 같은 모델군은 거의 모든 모델 크기에서 체계적인 과적합 증거를 보였습니다. 반면, 최첨단 모델들(예: Gemini/GPT/Claude)은 과적합의 최소한의 징후만을 보였습니다. 추가 분석 결과, 모델이 GSM8k의 예제를 생성할 확률과 GSM8k와 GSM1k 간의 성능 차이 사이에 양의 상관관계(Spearman's r^2=0.32)가 있음을 발견했는데, 이는 많은 모델이 GSM8k를 부분적으로 암기했을 가능성을 시사합니다.