Fehler in der Argumentationsfähigkeit großer Sprachmodelle

Zusammenfassung

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten im Bereich des Schlussfolgerns gezeigt und beeindruckende Ergebnisse bei einer Vielzahl von Aufgaben erzielt. Trotz dieser Fortschritte bestehen erhebliche Schwächen im Reasoning fort, die sogar in scheinbar einfachen Szenarien auftreten. Um diese Mängel systematisch zu verstehen und anzugehen, präsentieren wir die erste umfassende Übersichtsarbeit, die sich Reasoning-Fehlern in LLMs widmet. Wir führen ein neuartiges Kategorisierungssystem ein, das Reasoning in verkörpertes und nicht-verkörpertes Reasoning unterteilt, wobei letzteres weiter in informelles (intuitives) und formelles (logisches) Reasoning untergliedert wird. Parallel dazu klassifizieren wir Reasoning-Fehler entlang einer komplementären Achse in drei Typen: fundamentale, in der Architektur von LLMs angelegte Fehler, die nachgelagerte Aufgaben breit betreffen; anwendungsspezifische Einschränkungen, die sich in bestimmten Domänen zeigen; und Robustheitsprobleme, die sich durch inkonsistente Leistung bei geringfügigen Variationen auszeichnen. Für jede Art von Reasoning-Fehler liefern wir eine klare Definition, analysieren bestehende Studien, erforschen die Ursachen und stellen Strategien zu deren Minderung vor. Indem wir fragmentierte Forschungsbemühungen zusammenführen, bietet unsere Übersichtsarbeit eine strukturierte Perspektive auf systemische Schwächen im LLM-Reasoning und liefert wertvolle Einblicke, um zukünftige Forschung hin zur Entwicklung stärkerer, zuverlässigerer und robusterer Reasoning-Fähigkeiten zu lenken. Zusätzlich veröffentlichen wir eine umfassende Sammlung von Forschungsarbeiten zu LLM-Reasoning-Fehlern als GitHub-Repository unter https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, um einen einfachen Einstieg in dieses Gebiet zu ermöglichen.

English

Large Language Models (LLMs) have exhibited remarkable reasoning capabilities, achieving impressive results across a wide range of tasks. Despite these advances, significant reasoning failures persist, occurring even in seemingly simple scenarios. To systematically understand and address these shortcomings, we present the first comprehensive survey dedicated to reasoning failures in LLMs. We introduce a novel categorization framework that distinguishes reasoning into embodied and non-embodied types, with the latter further subdivided into informal (intuitive) and formal (logical) reasoning. In parallel, we classify reasoning failures along a complementary axis into three types: fundamental failures intrinsic to LLM architectures that broadly affect downstream tasks; application-specific limitations that manifest in particular domains; and robustness issues characterized by inconsistent performance across minor variations. For each reasoning failure, we provide a clear definition, analyze existing studies, explore root causes, and present mitigation strategies. By unifying fragmented research efforts, our survey provides a structured perspective on systemic weaknesses in LLM reasoning, offering valuable insights and guiding future research towards building stronger, more reliable, and robust reasoning capabilities. We additionally release a comprehensive collection of research works on LLM reasoning failures, as a GitHub repository at https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, to provide an easy entry point to this area.

Fehler in der Argumentationsfähigkeit großer Sprachmodelle

Large Language Model Reasoning Failures

Zusammenfassung

Support