추론의 인지적 기초 및 대규모 언어 모델에서의 구현
Cognitive Foundations for Reasoning and Their Manifestation in LLMs
November 20, 2025
저자: Priyanka Kargupta, Shuyue Stella Li, Haocheng Wang, Jinu Lee, Shan Chen, Orevaoghene Ahia, Dean Light, Thomas L. Griffiths, Max Kleiman-Weiner, Jiawei Han, Asli Celikyilmaz, Yulia Tsvetkov
cs.AI
초록
대규모 언어 모델(LLM)은 복잡한 문제는 해결하지만 더 단순한 변형 문제에는 실패하는데, 이는 인간의 추론 방식과 근본적으로 다른 메커니즘을 통해 정답을 도출함을 시사합니다. 이러한 차이를 이해하기 위해 우리는 인지 과학 연구를 종합하여 추론 불변성, 메타인지적 통제, 추론 및 지식 구성을 위한 표상, 변환 작업 등 28가지 인지 요소로 구성된 분류 체계를 마련했습니다. 우리는 세분화된 평가 프레임워크를 도입하고 텍스트, 비전, 오디오 분야의 18개 모델에서 추출한 192,000개의 추적 데이터와 공개된 54개의 인간 구술 사고 데이터를 활용한 첫 대규모 실증 분석을 수행했습니다. 분석 결과, 모델들은 성공과 상관관계가 있는 인지 요소를 충분히 활용하지 못하며, 다양한 표상과 메타인지적 모니터링이 중요한 비정형 문제에서는 경직된 순차 처리 방식으로 좁혀드는 것으로 나타났습니다. 인간의 추적 데이터는 더 많은 추상화와 개념적 처리를 보인 반면, 모델들은 표면적 열거 방식에 의존했습니다. 1,600편의 LLM 추론 논문에 대한 메타분석 결과, 연구 커뮤니티는 정량화가 쉬운 요소(순차적 구성: 55%, 분해: 60%)에 집중하는 반면 성공과 연관된 메타인지적 통제(자기인식: 16%)는 소홀히 하는 것으로 나타났습니다. 모델들은 성공과 연관된 행동 레퍼토리를 보유하고 있지만 이를 자발적으로 활용하지는 못했습니다. 이러한 패턴을 활용하여 우리는 성공적인 구조를 자동으로 지원하는 시험 시간 추론 가이던스를 개발했으며, 복잡한 문제에서 성능을 최대 66.7%까지 향상시켰습니다. 인지 과학과 LLM 연구 간 공유 어휘 체계를 확립함으로써, 우리의 프레임워크는 추론 실패의 체계적 진단과 우연적 단축이 아닌 견고한 인지 메커니즘을 통한 추론 모델의 원칙적 개발을 가능하게 하며, 대규모 인간 인지 이론 검증 도구를 제공합니다.
English
Large language models (LLMs) solve complex problems yet fail on simpler variants, suggesting they achieve correct outputs through mechanisms fundamentally different from human reasoning. To understand this gap, we synthesize cognitive science research into a taxonomy of 28 cognitive elements spanning reasoning invariants, meta-cognitive controls, representations for organizing reasoning & knowledge, and transformation operations. We introduce a fine-grained evaluation framework and conduct the first large-scale empirical analysis of 192K traces from 18 models across text, vision, and audio, complemented by 54 human think-aloud traces, which we make publicly available. We find that models under-utilize cognitive elements correlated with success, narrowing to rigid sequential processing on ill-structured problems where diverse representations and meta-cognitive monitoring are critical. Human traces show more abstraction and conceptual processing, while models default to surface-level enumeration. Meta-analysis of 1.6K LLM reasoning papers reveals the research community concentrates on easily quantifiable elements (sequential organization: 55%, decomposition: 60%) but neglecting meta-cognitive controls (self-awareness: 16%) that correlate with success. Models possess behavioral repertoires associated with success but fail to deploy them spontaneously. Leveraging these patterns, we develop test-time reasoning guidance that automatically scaffold successful structures, improving performance by up to 66.7% on complex problems. By establishing a shared vocabulary between cognitive science and LLM research, our framework enables systematic diagnosis of reasoning failures and principled development of models that reason through robust cognitive mechanisms rather than spurious shortcuts, while providing tools to test theories of human cognition at scale.