ChatPaper.aiChatPaper

GSM-Simbolico: Comprendere i Limiti del Ragionamento Matematico nei Grandi Modelli Linguistici

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

October 7, 2024
Autori: Iman Mirzadeh, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio, Mehrdad Farajtabar
cs.AI

Abstract

I recenti progressi nei Large Language Models (LLM) hanno suscitato interesse nelle loro capacità di ragionamento formale, in particolare in matematica. Il benchmark GSM8K è ampiamente utilizzato per valutare il ragionamento matematico dei modelli su domande di livello scolastico. Sebbene le prestazioni dei LLM su GSM8K siano notevolmente migliorate negli ultimi anni, rimane incerto se le loro capacità di ragionamento matematico siano effettivamente avanzate, sollevando dubbi sulla affidabilità delle metriche riportate. Per affrontare tali preoccupazioni, conduciamo uno studio su larga scala su diversi modelli aperti e chiusi all'avanguardia. Per superare i limiti delle valutazioni esistenti, introduciamo GSM-Symbolic, un benchmark migliorato creato da modelli simbolici che consentono la generazione di un insieme variegato di domande. GSM-Symbolic consente valutazioni più controllabili, fornendo importanti approfondimenti e metriche più affidabili per misurare le capacità di ragionamento dei modelli. Le nostre scoperte rivelano che i LLM mostrano una variazione significativa nel rispondere a diverse istanze della stessa domanda. In particolare, le prestazioni di tutti i modelli diminuiscono quando vengono modificati solo i valori numerici nella domanda nel benchmark GSM-Symbolic. Inoltre, indaghiamo sulla fragilità del ragionamento matematico in questi modelli e mostriamo che le loro prestazioni peggiorano significativamente all'aumentare del numero di clausole in una domanda. Ipotizziamo che questo declino sia dovuto al fatto che i LLM attuali non possono eseguire un autentico ragionamento logico; essi replicano passaggi di ragionamento dai dati di addestramento. Aggiungere una singola clausola che sembra pertinente alla domanda provoca significativi cali di prestazione (fino al 65%) in tutti i modelli all'avanguardia, anche se la clausola non contribuisce alla catena di ragionamento necessaria per la risposta finale. Nel complesso, il nostro lavoro offre una comprensione più sfumata delle capacità e dei limiti dei LLM nel ragionamento matematico.
English
Recent advancements in Large Language Models (LLMs) have sparked interest in their formal reasoning capabilities, particularly in mathematics. The GSM8K benchmark is widely used to assess the mathematical reasoning of models on grade-school-level questions. While the performance of LLMs on GSM8K has significantly improved in recent years, it remains unclear whether their mathematical reasoning capabilities have genuinely advanced, raising questions about the reliability of the reported metrics. To address these concerns, we conduct a large-scale study on several SOTA open and closed models. To overcome the limitations of existing evaluations, we introduce GSM-Symbolic, an improved benchmark created from symbolic templates that allow for the generation of a diverse set of questions. GSM-Symbolic enables more controllable evaluations, providing key insights and more reliable metrics for measuring the reasoning capabilities of models.Our findings reveal that LLMs exhibit noticeable variance when responding to different instantiations of the same question. Specifically, the performance of all models declines when only the numerical values in the question are altered in the GSM-Symbolic benchmark. Furthermore, we investigate the fragility of mathematical reasoning in these models and show that their performance significantly deteriorates as the number of clauses in a question increases. We hypothesize that this decline is because current LLMs cannot perform genuine logical reasoning; they replicate reasoning steps from their training data. Adding a single clause that seems relevant to the question causes significant performance drops (up to 65%) across all state-of-the-art models, even though the clause doesn't contribute to the reasoning chain needed for the final answer. Overall, our work offers a more nuanced understanding of LLMs' capabilities and limitations in mathematical reasoning.
PDF226November 16, 2024