Fallimenti nel Ragionamento dei Grandi Modelli Linguistici

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità di ragionamento notevoli, ottenendo risultati impressionanti in un'ampia gamma di compiti. Nonostante questi progressi, persistono significativi fallimenti di ragionamento, che si verificano anche in scenari apparentemente semplici. Per comprendere e affrontare sistematicamente queste carenze, presentiamo la prima rassegna completa dedicata ai fallimenti del ragionamento negli LLM. Introduciamo un nuovo quadro di categorizzazione che distingue il ragionamento in tipi incarnato e non incarnato, con quest'ultimo ulteriormente suddiviso in ragionamento informale (intuitivo) e formale (logico). Parallelamente, classifichiamo i fallimenti di ragionamento lungo un asse complementare in tre tipi: fallimenti fondamentali intrinseci alle architetture degli LLM che influenzano ampiamente i task a valle; limitazioni specifiche dell'applicazione che si manifestano in domini particolari; e problemi di robustezza caratterizzati da prestazioni incoerenti tra piccole variazioni. Per ogni fallimento di ragionamento, forniamo una definizione chiara, analizziamo gli studi esistenti, esploriamo le cause profonde e presentiamo strategie di mitigazione. Unificando gli sforzi di ricerca frammentati, la nostra rassegna fornisce una prospettiva strutturata sulle debolezze sistemiche del ragionamento degli LLM, offrendo spunti preziosi e guidando la ricerca futura verso la costruzione di capacità di ragionamento più solide, affidabili e robuste. Rilasciamo inoltre una raccolta completa di lavori di ricerca sui fallimenti del ragionamento degli LLM, come repository GitHub all'indirizzo https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, per fornire un punto di ingresso facile a quest'area.

English

Large Language Models (LLMs) have exhibited remarkable reasoning capabilities, achieving impressive results across a wide range of tasks. Despite these advances, significant reasoning failures persist, occurring even in seemingly simple scenarios. To systematically understand and address these shortcomings, we present the first comprehensive survey dedicated to reasoning failures in LLMs. We introduce a novel categorization framework that distinguishes reasoning into embodied and non-embodied types, with the latter further subdivided into informal (intuitive) and formal (logical) reasoning. In parallel, we classify reasoning failures along a complementary axis into three types: fundamental failures intrinsic to LLM architectures that broadly affect downstream tasks; application-specific limitations that manifest in particular domains; and robustness issues characterized by inconsistent performance across minor variations. For each reasoning failure, we provide a clear definition, analyze existing studies, explore root causes, and present mitigation strategies. By unifying fragmented research efforts, our survey provides a structured perspective on systemic weaknesses in LLM reasoning, offering valuable insights and guiding future research towards building stronger, more reliable, and robust reasoning capabilities. We additionally release a comprehensive collection of research works on LLM reasoning failures, as a GitHub repository at https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, to provide an easy entry point to this area.

Fallimenti nel Ragionamento dei Grandi Modelli Linguistici

Large Language Model Reasoning Failures

Abstract

Support