Modelli Linguistici di Grandi Dimensioni e Fallimenti nel Ragionamento Matematico
Large Language Models and Mathematical Reasoning Failures
February 17, 2025
Autori: Johan Boye, Birger Moell
cs.AI
Abstract
Questo articolo indaga le capacità di ragionamento matematico dei grandi modelli linguistici (LLMs) utilizzando 50 nuovi problemi di parole di livello liceale. A differenza di studi precedenti che si concentrano esclusivamente sulla correttezza delle risposte, analizziamo rigorosamente sia le risposte finali che i passaggi risolutivi per identificare errori di ragionamento. Valutando otto modelli all'avanguardia - tra cui Mixtral, Llama, Gemini, GPT-4o e le varianti o1 di OpenAI - scopriamo che, sebbene i modelli più recenti (ad esempio, o3-mini, deepseek-r1) raggiungano una maggiore accuratezza, tutti i modelli presentano errori nel ragionamento spaziale, nella pianificazione strategica e nell'aritmetica, producendo talvolta risposte corrette attraverso una logica difettosa. Le modalità di errore comuni includono assunzioni ingiustificate, eccessiva dipendenza da schemi numerici e difficoltà nel tradurre l'intuizione fisica in passaggi matematici. L'analisi manuale rivela che i modelli hanno difficoltà con problemi che richiedono deduzioni a più passaggi o conoscenze del mondo reale, nonostante possiedano un'ampia conoscenza matematica. I nostri risultati sottolineano l'importanza di valutare i processi di ragionamento, non solo le risposte, e mettono in guardia contro la sovrastima della competenza dei LLMs nella risoluzione dei problemi. Lo studio evidenzia persistenti lacune nelle capacità di generalizzazione dei LLMs, enfatizzando la necessità di miglioramenti mirati nel ragionamento strutturato e nella gestione dei vincoli.
English
This paper investigates the mathematical reasoning capabilities of large
language models (LLMs) using 50 newly constructed high-school-level word
problems. Unlike prior studies that focus solely on answer correctness, we
rigorously analyze both final answers and solution steps to identify reasoning
failures. Evaluating eight state-of-the-art models - including Mixtral, Llama,
Gemini, GPT-4o, and OpenAI's o1 variants - we find that while newer models
(e.g., o3-mini, deepseek-r1) achieve higher accuracy, all models exhibit errors
in spatial reasoning, strategic planning, and arithmetic, sometimes producing
correct answers through flawed logic. Common failure modes include unwarranted
assumptions, over-reliance on numerical patterns, and difficulty translating
physical intuition into mathematical steps. Manual analysis reveals that models
struggle with problems requiring multi-step deduction or real-world knowledge,
despite possessing broad mathematical knowledge. Our results underscore the
importance of evaluating reasoning processes, not just answers, and caution
against overestimating LLMs' problem-solving proficiency. The study highlights
persistent gaps in LLMs' generalization abilities, emphasizing the need for
targeted improvements in structured reasoning and constraint handling.Summary
AI-Generated Summary