Défaillances du raisonnement des grands modèles de langage

Résumé

Les grands modèles de langage (LLM) ont démontré des capacités de raisonnement remarquables, obtenant des résultats impressionnants sur un large éventail de tâches. Malgré ces avancées, des échecs de raisonnement significatifs persistent, survenant même dans des scénarios apparemment simples. Pour comprendre et résoudre systématiquement ces lacunes, nous présentons la première étude complète consacrée aux échecs de raisonnement des LLM. Nous introduisons un nouveau cadre de catégorisation qui distingue le raisonnement en types incarné et non-incarné, ce dernier étant subdivisé en raisonnement informel (intuitif) et formel (logique). En parallèle, nous classifions les échecs de raisonnement selon un axe complémentaire en trois types : les échecs fondamentaux, intrinsèques aux architectures des LLM, qui affectent largement les tâches en aval ; les limitations spécifiques aux applications qui se manifestent dans des domaines particuliers ; et les problèmes de robustesse caractérisés par des performances incohérentes face à de légères variations. Pour chaque échec de raisonnement, nous fournissons une définition claire, analysons les études existantes, explorons les causes profondes et présentons des stratégies d'atténuation. En unifiant des efforts de recherche fragmentés, notre étude offre une perspective structurée sur les faiblesses systémiques du raisonnement des LLM, fournissant des insights précieux et orientant les recherches futures vers la construction de capacités de raisonnement plus solides, fiables et robustes. Nous mettons également à disposition une collection complète de travaux de recherche sur les échecs de raisonnement des LLM, sous forme de dépôt GitHub à l'adresse https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, pour offrir un point d'entrée facile dans ce domaine.

English

Large Language Models (LLMs) have exhibited remarkable reasoning capabilities, achieving impressive results across a wide range of tasks. Despite these advances, significant reasoning failures persist, occurring even in seemingly simple scenarios. To systematically understand and address these shortcomings, we present the first comprehensive survey dedicated to reasoning failures in LLMs. We introduce a novel categorization framework that distinguishes reasoning into embodied and non-embodied types, with the latter further subdivided into informal (intuitive) and formal (logical) reasoning. In parallel, we classify reasoning failures along a complementary axis into three types: fundamental failures intrinsic to LLM architectures that broadly affect downstream tasks; application-specific limitations that manifest in particular domains; and robustness issues characterized by inconsistent performance across minor variations. For each reasoning failure, we provide a clear definition, analyze existing studies, explore root causes, and present mitigation strategies. By unifying fragmented research efforts, our survey provides a structured perspective on systemic weaknesses in LLM reasoning, offering valuable insights and guiding future research towards building stronger, more reliable, and robust reasoning capabilities. We additionally release a comprehensive collection of research works on LLM reasoning failures, as a GitHub repository at https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, to provide an easy entry point to this area.

Défaillances du raisonnement des grands modèles de langage

Large Language Model Reasoning Failures

Résumé

Support