대규모 언어 모델의 추론 실패
Large Language Model Reasoning Failures
February 5, 2026
저자: Peiyang Song, Pengrui Han, Noah Goodman
cs.AI
초록
대규모 언어 모델(LLM)은 광범위한 과제에서 인상적인 성과를 보이며 뛰어난 추론 능력을 보여주고 있습니다. 그러나 이러한 발전에도 불구하고, 겉보기에 단순한 시나리오에서조차 상당한 추론 실패가 지속적으로 발생하고 있습니다. 이러한 결함을 체계적으로 이해하고 해결하기 위해, 본 논문은 LLM의 추론 실패에 초점을 맞춘 첫 번째 포괄적인 조사 연구를 제시합니다. 우리는 추론을 비실체적(non-embodied) 추론과 실체적(embodied) 추론으로 구분하고, 비실체적 추론을 다시 비형식적(직관적) 추론과 형식적(논리적) 추론으로 세분화하는 새로운 분류 체계를 도입합니다. 동시에 추론 실패는 상호 보완적인 축을 따라 세 가지 유형, 즉 하위 작업 전반에 영향을 미치는 LLM 아키텍처의 본질적 결함인 근본적 실패, 특정 영역에서 나타나는 응용 분야 한계, 사소한 변화에 따라 성능이 일관되지 않는 강건성 문제로 분류합니다. 각 추론 실패 유형에 대해 명확한 정의를 제공하고, 기존 연구를 분석하며, 근본 원인을 탐구하고, 완화 전략을 제시합니다. 분산된 연구 노력을 통합함으로써, 본 조사 연구는 LLM 추론의 체계적 약점에 대한 구조화된 관점을 제공하여 강력하고 신뢰할 수 있으며 견고한 추론 능력을 구축하는 미래 연구에 유용한 통찰과 방향을 제시합니다. 또한 해당 분야에 쉽게 접근할 수 있도록 LLM 추론 실패에 관한 연구 논문들을 종합적으로 모은 GitHub 저장소(https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures)를 공개합니다.
English
Large Language Models (LLMs) have exhibited remarkable reasoning capabilities, achieving impressive results across a wide range of tasks. Despite these advances, significant reasoning failures persist, occurring even in seemingly simple scenarios. To systematically understand and address these shortcomings, we present the first comprehensive survey dedicated to reasoning failures in LLMs. We introduce a novel categorization framework that distinguishes reasoning into embodied and non-embodied types, with the latter further subdivided into informal (intuitive) and formal (logical) reasoning. In parallel, we classify reasoning failures along a complementary axis into three types: fundamental failures intrinsic to LLM architectures that broadly affect downstream tasks; application-specific limitations that manifest in particular domains; and robustness issues characterized by inconsistent performance across minor variations. For each reasoning failure, we provide a clear definition, analyze existing studies, explore root causes, and present mitigation strategies. By unifying fragmented research efforts, our survey provides a structured perspective on systemic weaknesses in LLM reasoning, offering valuable insights and guiding future research towards building stronger, more reliable, and robust reasoning capabilities. We additionally release a comprehensive collection of research works on LLM reasoning failures, as a GitHub repository at https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, to provide an easy entry point to this area.