ChatPaper.aiChatPaper

LLM은 자체 실패를 예측할 수 있을까? 내부 회로를 통한 자기 인식

Can LLMs Predict Their Own Failures? Self-Awareness via Internal Circuits

December 23, 2025
저자: Amirhosein Ghasemabadi, Di Niu
cs.AI

초록

대규모 언어 모델(LLM)은 유창하고 복잡한 출력을 생성하지만, 종종 자신의 실수와 환각을 인식하지 못합니다. 기존 접근법은 일반적으로 외부 평가자, 다중 샘플 일관성, 또는 텍스트 기반 자기 비판에 의존하는데, 이는 추가적인 계산을 필요로 하거나 실제 정확성과의 상관관계가 약합니다. 우리는 다음과 같은 질문을 제기합니다: LLM이 추론 과정 중 내부 상태를 검사하여 자신의 실패를 예측할 수 있을까? 우리는 숨겨진 상태(hidden states)와 어텐션 패턴에서 신호를 디코딩하여 고정된(frozen) LLM이 내재적 자기 검증(intrinsic self-verification)을 수행할 수 있도록 하는 경량 자기 인식 메커니즘인 Gnosis를 소개합니다. Gnosis는 내부 추적을 수동적으로 관찰하고, 이를 고정 예산 디스크립터(fixed-budget descriptors)로 압축하며, 추론 비용을 무시할 수 있을 정도로만 증가시키면서(~5M 개의 매개변수만 추가, 시퀀스 길이와 독립적으로 운영) 정확성을 예측합니다. 수학적 추론, 개방형 질의응답, 학술 지식 벤치마크에 걸쳐, 1.7B부터 20B 매개변수 크기의 고정 백본 모델들을 대상으로 한 실험에서 Gnosis는 강력한 내부 기준선과 대형 외부 평가자들을 정확도와 보정(calibration) 모두에서 일관되게 능가했습니다. 더 나아가, 이 방법은 부분적 생성물에 대해 제로샷으로 일반화되어, 실패 궤적의 조기 탐지와 계산 인식 제어(compute-aware control)를 가능하게 합니다. 이러한 결과는 신뢰할 수 있는 정확성 신호가 생성 과정本身에 내재되어 있으며 외부 감독 없이도 효율적으로 추출될 수 있음을 보여줍니다.
English
Large language models (LLMs) generate fluent and complex outputs but often fail to recognize their own mistakes and hallucinations. Existing approaches typically rely on external judges, multi-sample consistency, or text-based self-critique, which incur additional compute or correlate weakly with true correctness. We ask: can LLMs predict their own failures by inspecting internal states during inference? We introduce Gnosis, a lightweight self-awareness mechanism that enables frozen LLMs to perform intrinsic self-verification by decoding signals from hidden states and attention patterns. Gnosis passively observes internal traces, compresses them into fixed-budget descriptors, and predicts correctness with negligible inference cost, adding only ~5M parameters and operating independently of sequence length. Across math reasoning, open-domain question answering, and academic knowledge benchmarks, and over frozen backbones ranging from 1.7B to 20B parameters, Gnosis consistently outperforms strong internal baselines and large external judges in both accuracy and calibration. Moreover, it generalizes zero-shot to partial generations, enabling early detection of failing trajectories and compute-aware control. These results show that reliable correctness cues are intrinsic to generation process and can be extracted efficiently without external supervision.
PDF462January 7, 2026