大規模言語モデルの小学校算数問題における性能の詳細な検証A Careful Examination of Large Language Model Performance on Grade
School Arithmetic
大規模言語モデル(LLM)は、数学的推論の多くのベンチマークで印象的な成功を収めてきました。しかし、その性能の一部が実際にはデータセット汚染を反映しているのではないかという懸念が高まっています。データセット汚染とは、ベンチマーク問題に酷似したデータが訓練データに混入し、真の推論能力ではなくなっている状態を指します。この主張を厳密に調査するため、私たちはGrade School Math 1000(GSM1k)を作成しました。GSM1kは、初等数学的推論を測定するためのゴールドスタンダードである既存のGSM8kベンチマークのスタイルと複雑さを模倣するように設計されています。2つのベンチマークが、人間の解答率、解答ステップ数、答えの大きさなどの重要な指標において比較可能であることを確認しました。主要なオープンソースおよびクローズドソースのLLMをGSM1kで評価した結果、最大13%の精度低下が観察され、PhiやMistralなどのモデルファミリーでは、ほぼすべてのモデルサイズで系統的な過学習の証拠が示されました。一方で、特に最先端のモデル(Gemini/GPT/Claudeなど)では、過学習の兆候がほとんど見られませんでした。さらに分析を行った結果、モデルがGSM8kの例を生成する確率と、GSM8kとGSM1kの間の性能差との間に正の相関関係(Spearmanのr^2=0.32)があることが示唆され、多くのモデルがGSM8kを部分的に記憶している可能性が示されました。