Grote Fouten in het Redeneervermogen van Taalmodellen

Samenvatting

Grote Taalmodellen (LLM's) hebben opmerkelijke redeneervermogens getoond en indrukwekkende resultaten behaald op een breed scala aan taken. Ondanks deze vooruitgang blijven significante redeneerfouten bestaan, die zich zelfs in ogenschijnlijk eenvoudige scenario's voordoen. Om deze tekortkomingen systematisch te begrijpen en aan te pakken, presenteren wij de eerste uitgebreide survey die gewijd is aan redeneerfouten in LLM's. Wij introduceren een nieuw categoriseringsraamwerk dat onderscheid maakt tussen belichaamde en niet-belichaamde redenering, waarbij de laatste verder wordt onderverdeeld in informele (intuïtieve) en formele (logische) redenering. Parallel hieraan classificeren wij redeneerfouten langs een complementaire as in drie types: fundamentele fouten die intrinsiek zijn aan LLM-architecturen en downstreamtaken breed beïnvloeden; toepassingsspecifieke beperkingen die zich voordoen in bepaalde domeinen; en robuustheidsproblemen die worden gekenmerkt door inconsistente prestaties bij kleine variaties. Voor elke redeneerfout geven wij een duidelijke definitie, analyseren bestaande studies, onderzoeken oorzaken en presenteren strategieën om de fouten te mitigeren. Door gefragmenteerde onderzoeksinspanningen te verenigen, biedt onze survey een gestructureerd perspectief op systemische zwaktes in LLM-redenering, wat waardevolle inzichten biedt en toekomstig onderzoek leidt naar het bouwen van sterkere, betrouwbaardere en robuustere redeneervermogens. Wij publiceren bovendien een uitgebreide verzameling onderzoekswerken over LLM-redeneerfouten, als een GitHub-repository op https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, om een eenvoudig toegangspunt tot dit gebied te bieden.

English

Large Language Models (LLMs) have exhibited remarkable reasoning capabilities, achieving impressive results across a wide range of tasks. Despite these advances, significant reasoning failures persist, occurring even in seemingly simple scenarios. To systematically understand and address these shortcomings, we present the first comprehensive survey dedicated to reasoning failures in LLMs. We introduce a novel categorization framework that distinguishes reasoning into embodied and non-embodied types, with the latter further subdivided into informal (intuitive) and formal (logical) reasoning. In parallel, we classify reasoning failures along a complementary axis into three types: fundamental failures intrinsic to LLM architectures that broadly affect downstream tasks; application-specific limitations that manifest in particular domains; and robustness issues characterized by inconsistent performance across minor variations. For each reasoning failure, we provide a clear definition, analyze existing studies, explore root causes, and present mitigation strategies. By unifying fragmented research efforts, our survey provides a structured perspective on systemic weaknesses in LLM reasoning, offering valuable insights and guiding future research towards building stronger, more reliable, and robust reasoning capabilities. We additionally release a comprehensive collection of research works on LLM reasoning failures, as a GitHub repository at https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, to provide an easy entry point to this area.

Grote Fouten in het Redeneervermogen van Taalmodellen

Large Language Model Reasoning Failures

Samenvatting

Support