ChatPaper.aiChatPaper

"명확하게 표현하지 못했을 수 있습니다": 추론 시점에서 LLM 사고의 동적 불안정성 진단

"I May Not Have Articulated Myself Clearly": Diagnosing Dynamic Instability in LLM Reasoning at Inference Time

February 2, 2026
저자: Jinkun Chen, Fengxiang Cheng, Sijia Han, Vlado Keselj
cs.AI

초록

대규모 언어 모델(LLM)의 추론 실패는 일반적으로 생성 결과의 최종 단계에서만 측정되지만, 많은 실패는 과정 수준의 붕괴로 나타납니다. 즉, 모델이 추론 중간에 "논리의 흐름을 잃는" 현상이 발생합니다. 본 연구에서는 이러한 붕괴 현상이 사전 학습이나 미세 조정 없이도 표준 API에서 제공하는 추론 시 관측 가능한 지표(토큰 로그 확률)만으로 탐지 가능한지 분석합니다. 우리는 연속적 단계 간 분포 변화(JSD)와 불확실성(엔트로피)을 결합한 간단한 불안정성 신호를 정의하고, 각 추적 경로를 최고 불안정성 강도로 요약하며, 이 신호가 실패를 신뢰성 있게 예측함을 입증합니다. GSM8K와 HotpotQA 데이터셋 전반에 걸쳐 불안정성 강도는 AUC 기준 우연 수준 이상으로 오답을 예측하며, 다양한 모델 규모에서 버킷 수준 정확도가 단조롭게 하락하는 패턴을 대규모로 보여줍니다. 중요한 것은 불안정성이 항상 해롭지만은 않다는 점입니다: 초기 불안정성은 이후 안정화와 정답 도출로 이어지는 경우(수정적 불안정성)가 있는 반면, 후기 불안정성은 비슷한 최고 강도에서도 실패로 연결되는 경우(파괴적 불안정성)가 더 많아, 회복 가능성은 분포 변화의 강도뿐만 아니라 남은 디코딩 과정 대비 변화 발생 시점에도 의존함을 시사합니다. 본 방법론은 모델 독립적, 학습 불필요, 재현 가능하며, 교정이나 제어 메커니즘이 아닌 진단적 관점으로 제시됩니다.
English
Reasoning failures in large language models (LLMs) are typically measured only at the end of a generation, yet many failures manifest as a process-level breakdown: the model "loses the thread" mid-reasoning. We study whether such breakdowns are detectable from inference-time observables available in standard APIs (token log probabilities), without any training or fine-tuning. We define a simple instability signal that combines consecutive-step distributional shift (JSD) and uncertainty (entropy), summarize each trace by its peak instability strength, and show that this signal reliably predicts failure. Across GSM8K and HotpotQA, instability strength predicts wrong answers with above-chance AUC and yields monotonic bucket-level accuracy decline at scale across model sizes. Crucially, we show that instability is not uniformly harmful: early instability can reflect subsequent stabilization and a correct final answer (corrective instability), whereas late instability is more often followed by failure (destructive instability), even at comparable peak magnitudes, indicating that recoverability depends not only on how strongly the distribution changes but also on when such changes occur relative to the remaining decoding horizon. The method is model-agnostic, training-free, and reproducible, and is presented as a diagnostic lens rather than a corrective or control mechanism.
PDF11February 6, 2026