GSM-Simbolico: Comprendere i Limiti del Ragionamento Matematico nei Grandi Modelli Linguistici
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
October 7, 2024
Autori: Iman Mirzadeh, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio, Mehrdad Farajtabar
cs.AI
Abstract
I recenti progressi nei Large Language Models (LLM) hanno suscitato interesse nelle loro capacità di ragionamento formale, in particolare in matematica. Il benchmark GSM8K è ampiamente utilizzato per valutare il ragionamento matematico dei modelli su domande di livello scolastico. Sebbene le prestazioni dei LLM su GSM8K siano notevolmente migliorate negli ultimi anni, rimane incerto se le loro capacità di ragionamento matematico siano effettivamente avanzate, sollevando dubbi sulla affidabilità delle metriche riportate. Per affrontare tali preoccupazioni, conduciamo uno studio su larga scala su diversi modelli aperti e chiusi all'avanguardia. Per superare i limiti delle valutazioni esistenti, introduciamo GSM-Symbolic, un benchmark migliorato creato da modelli simbolici che consentono la generazione di un insieme variegato di domande. GSM-Symbolic consente valutazioni più controllabili, fornendo importanti approfondimenti e metriche più affidabili per misurare le capacità di ragionamento dei modelli. Le nostre scoperte rivelano che i LLM mostrano una variazione significativa nel rispondere a diverse istanze della stessa domanda. In particolare, le prestazioni di tutti i modelli diminuiscono quando vengono modificati solo i valori numerici nella domanda nel benchmark GSM-Symbolic. Inoltre, indaghiamo sulla fragilità del ragionamento matematico in questi modelli e mostriamo che le loro prestazioni peggiorano significativamente all'aumentare del numero di clausole in una domanda. Ipotizziamo che questo declino sia dovuto al fatto che i LLM attuali non possono eseguire un autentico ragionamento logico; essi replicano passaggi di ragionamento dai dati di addestramento. Aggiungere una singola clausola che sembra pertinente alla domanda provoca significativi cali di prestazione (fino al 65%) in tutti i modelli all'avanguardia, anche se la clausola non contribuisce alla catena di ragionamento necessaria per la risposta finale. Nel complesso, il nostro lavoro offre una comprensione più sfumata delle capacità e dei limiti dei LLM nel ragionamento matematico.
English
Recent advancements in Large Language Models (LLMs) have sparked interest in
their formal reasoning capabilities, particularly in mathematics. The GSM8K
benchmark is widely used to assess the mathematical reasoning of models on
grade-school-level questions. While the performance of LLMs on GSM8K has
significantly improved in recent years, it remains unclear whether their
mathematical reasoning capabilities have genuinely advanced, raising questions
about the reliability of the reported metrics. To address these concerns, we
conduct a large-scale study on several SOTA open and closed models. To overcome
the limitations of existing evaluations, we introduce GSM-Symbolic, an improved
benchmark created from symbolic templates that allow for the generation of a
diverse set of questions. GSM-Symbolic enables more controllable evaluations,
providing key insights and more reliable metrics for measuring the reasoning
capabilities of models.Our findings reveal that LLMs exhibit noticeable
variance when responding to different instantiations of the same question.
Specifically, the performance of all models declines when only the numerical
values in the question are altered in the GSM-Symbolic benchmark. Furthermore,
we investigate the fragility of mathematical reasoning in these models and show
that their performance significantly deteriorates as the number of clauses in a
question increases. We hypothesize that this decline is because current LLMs
cannot perform genuine logical reasoning; they replicate reasoning steps from
their training data. Adding a single clause that seems relevant to the question
causes significant performance drops (up to 65%) across all state-of-the-art
models, even though the clause doesn't contribute to the reasoning chain needed
for the final answer. Overall, our work offers a more nuanced understanding of
LLMs' capabilities and limitations in mathematical reasoning.