GSM-Symbolisch: Verstehen der Grenzen mathematischer Argumentation in großen Sprachmodellen
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
October 7, 2024
Autoren: Iman Mirzadeh, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio, Mehrdad Farajtabar
cs.AI
Zusammenfassung
Die jüngsten Fortschritte bei Large Language Models (LLMs) haben das Interesse an ihren formalen Schlussfolgerungsfähigkeiten, insbesondere in der Mathematik, geweckt. Der GSM8K-Benchmark wird weitläufig verwendet, um die mathematischen Schlussfolgerungsfähigkeiten von Modellen anhand von Fragen auf Grundschulniveau zu bewerten. Obwohl die Leistung von LLMs bei GSM8K in den letzten Jahren signifikant verbessert hat, bleibt unklar, ob ihre mathematischen Schlussfolgerungsfähigkeiten tatsächlich vorangeschritten sind, was Fragen zur Zuverlässigkeit der gemeldeten Metriken aufwirft. Um diesen Bedenken entgegenzuwirken, führen wir eine groß angelegte Studie an mehreren SOTA-Open- und Closed-Modellen durch. Um die Einschränkungen bestehender Bewertungen zu überwinden, führen wir GSM-Symbolic ein, einen verbesserten Benchmark, der aus symbolischen Vorlagen erstellt wurde, die die Generierung eines vielfältigen Fragenkatalogs ermöglichen. GSM-Symbolic ermöglicht kontrolliertere Bewertungen, liefert wichtige Erkenntnisse und zuverlässigere Metriken zur Messung der Schlussfolgerungsfähigkeiten von Modellen. Unsere Ergebnisse zeigen, dass LLMs eine deutliche Varianz aufweisen, wenn sie auf verschiedene Instantiierungen derselben Frage reagieren. Insbesondere sinkt die Leistung aller Modelle, wenn nur die numerischen Werte in der Frage im GSM-Symbolic-Benchmark geändert werden. Darüber hinaus untersuchen wir die Fragilität der mathematischen Schlussfolgerung in diesen Modellen und zeigen, dass ihre Leistung signifikant abnimmt, wenn die Anzahl der Klauseln in einer Frage zunimmt. Wir vermuten, dass dieser Rückgang darauf zurückzuführen ist, dass aktuelle LLMs keine echte logische Schlussfolgerung durchführen können; sie replizieren Schlussfolgerungsschritte aus ihren Trainingsdaten. Das Hinzufügen einer einzigen Klausel, die für die Frage relevant zu sein scheint, führt zu signifikanten Leistungsabfällen (bis zu 65%) bei allen State-of-the-Art-Modellen, obwohl die Klausel nicht zur Schlussfolgerungskette beiträgt, die für die endgültige Antwort erforderlich ist. Insgesamt bietet unsere Arbeit ein nuancierteres Verständnis der Fähigkeiten und Grenzen von LLMs in der mathematischen Schlussfolgerung.
English
Recent advancements in Large Language Models (LLMs) have sparked interest in
their formal reasoning capabilities, particularly in mathematics. The GSM8K
benchmark is widely used to assess the mathematical reasoning of models on
grade-school-level questions. While the performance of LLMs on GSM8K has
significantly improved in recent years, it remains unclear whether their
mathematical reasoning capabilities have genuinely advanced, raising questions
about the reliability of the reported metrics. To address these concerns, we
conduct a large-scale study on several SOTA open and closed models. To overcome
the limitations of existing evaluations, we introduce GSM-Symbolic, an improved
benchmark created from symbolic templates that allow for the generation of a
diverse set of questions. GSM-Symbolic enables more controllable evaluations,
providing key insights and more reliable metrics for measuring the reasoning
capabilities of models.Our findings reveal that LLMs exhibit noticeable
variance when responding to different instantiations of the same question.
Specifically, the performance of all models declines when only the numerical
values in the question are altered in the GSM-Symbolic benchmark. Furthermore,
we investigate the fragility of mathematical reasoning in these models and show
that their performance significantly deteriorates as the number of clauses in a
question increases. We hypothesize that this decline is because current LLMs
cannot perform genuine logical reasoning; they replicate reasoning steps from
their training data. Adding a single clause that seems relevant to the question
causes significant performance drops (up to 65%) across all state-of-the-art
models, even though the clause doesn't contribute to the reasoning chain needed
for the final answer. Overall, our work offers a more nuanced understanding of
LLMs' capabilities and limitations in mathematical reasoning.Summary
AI-Generated Summary