Uma Análise Cuidadosa do Desempenho de Modelos de Linguagem de Grande Escala em Aritmética do Ensino Fundamental
A Careful Examination of Large Language Model Performance on Grade School Arithmetic
May 1, 2024
Autores: Hugh Zhang, Jeff Da, Dean Lee, Vaughn Robinson, Catherine Wu, Will Song, Tiffany Zhao, Pranav Raja, Dylan Slack, Qin Lyu, Sean Hendryx, Russell Kaplan, Michele, Lunati, Summer Yue
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm alcançado sucesso impressionante em muitos benchmarks para raciocínio matemático. No entanto, há uma crescente preocupação de que parte desse desempenho realmente reflita contaminação de dados, onde informações que se assemelham muito às questões do benchmark vazam para os dados de treinamento, em vez de uma verdadeira capacidade de raciocínio. Para investigar essa afirmação de forma rigorosa, desenvolvemos o Grade School Math 1000 (GSM1k). O GSM1k foi projetado para refletir o estilo e a complexidade do consagrado benchmark GSM8k, considerado o padrão ouro para medir o raciocínio matemático elementar. Garantimos que os dois benchmarks sejam comparáveis em métricas importantes, como taxas de resolução humana, número de passos na solução, magnitude das respostas e mais. Ao avaliar os principais LLMs de código aberto e fechado no GSM1k, observamos quedas de precisão de até 13%, com várias famílias de modelos (por exemplo, Phi e Mistral) mostrando evidências de sobreajuste sistemático em quase todos os tamanhos de modelo. Ao mesmo tempo, muitos modelos, especialmente aqueles na fronteira (por exemplo, Gemini/GPT/Claude), mostram sinais mínimos de sobreajuste. Uma análise adicional sugere uma relação positiva (r² de Spearman=0,32) entre a probabilidade de um modelo gerar um exemplo do GSM8k e sua diferença de desempenho entre o GSM8k e o GSM1k, indicando que muitos modelos podem ter memorizado parcialmente o GSM8k.
English
Large language models (LLMs) have achieved impressive success on many
benchmarks for mathematical reasoning. However, there is growing concern that
some of this performance actually reflects dataset contamination, where data
closely resembling benchmark questions leaks into the training data, instead of
true reasoning ability. To investigate this claim rigorously, we commission
Grade School Math 1000 (GSM1k). GSM1k is designed to mirror the style and
complexity of the established GSM8k benchmark, the gold standard for measuring
elementary mathematical reasoning. We ensure that the two benchmarks are
comparable across important metrics such as human solve rates, number of steps
in solution, answer magnitude, and more. When evaluating leading open- and
closed-source LLMs on GSM1k, we observe accuracy drops of up to 13%, with
several families of models (e.g., Phi and Mistral) showing evidence of
systematic overfitting across almost all model sizes. At the same time, many
models, especially those on the frontier, (e.g., Gemini/GPT/Claude) show
minimal signs of overfitting. Further analysis suggests a positive relationship
(Spearman's r^2=0.32) between a model's probability of generating an example
from GSM8k and its performance gap between GSM8k and GSM1k, suggesting that
many models may have partially memorized GSM8k.