ChatPaper.aiChatPaper

Raciocínio Matemático em Modelos de Linguagem de Grande Escala: Avaliando Erros Lógicos e Aritméticos em uma Ampla Gama Numérica

Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges

February 12, 2025
Autores: Safal Shrestha, Minwu Kim, Keith Ross
cs.AI

Resumo

O raciocínio matemático em Modelos de Linguagem de Grande Escala (LLMs) é frequentemente avaliado usando benchmarks com intervalos numéricos limitados, falhando em refletir a resolução de problemas do mundo real em diversas escalas. Além disso, a maioria dos métodos de avaliação existentes apenas comparam as saídas do modelo com respostas verdadeiras, obscurecendo insights nos processos de raciocínio. Para lidar com essas limitações, introduzimos o GSM-Ranges, um gerador de conjuntos de dados derivado do GSM8K que perturba sistematicamente os valores numéricos em problemas matemáticos para avaliar a robustez do modelo em diferentes escalas numéricas. Além disso, propomos uma metodologia de avaliação inovadora que distingue entre erros lógicos e não lógicos, oferecendo uma avaliação mais precisa dos processos de raciocínio além da precisão computacional. Nossos experimentos com vários modelos revelam um aumento significativo nas taxas de erros lógicos - de até 14 pontos percentuais - à medida que a complexidade numérica aumenta, demonstrando uma fraqueza geral no raciocínio com valores numéricos fora da distribuição. Além disso, enquanto os modelos demonstram alta precisão em tarefas aritméticas isoladas, seu desempenho deteriora substancialmente quando os cálculos são incorporados em problemas de palavras. Essas descobertas fornecem uma avaliação abrangente das capacidades de raciocínio matemático dos LLMs e orientam futuras direções de pesquisa para melhorar a generalização numérica em modelos de linguagem.
English
Mathematical reasoning in Large Language Models (LLMs) is often evaluated using benchmarks with limited numerical ranges, failing to reflect real-world problem-solving across diverse scales. Furthermore, most existing evaluation methods only compare model outputs to ground-truth answers, obscuring insights into reasoning processes. To address these limitations, we introduce GSM-Ranges, a dataset generator derived from GSM8K that systematically perturbs numerical values in math problems to assess model robustness across varying numerical scales. Additionally, we propose a novel grading methodology that distinguishes between logical and non-logical errors, offering a more precise evaluation of reasoning processes beyond computational accuracy. Our experiments with various models reveal a significant increase in logical error rates-up to 14 percentage points-as numerical complexity rises, demonstrating a general weakness in reasoning with out-of-distribution numerical values. Moreover, while models demonstrate high accuracy on standalone arithmetic tasks, their performance deteriorates substantially when computations are embedded within word problems. These findings provide a comprehensive evaluation of LLMs' mathematical reasoning capabilities and inform future research directions for improving numerical generalization in language models.

Summary

AI-Generated Summary

PDF112February 14, 2025