ChatPaper.aiChatPaper

LLM은 실패를 인코딩한다: 생성 전 활성화로 성공 예측하기

LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations

February 10, 2026
저자: William Lugoloobi, Thomas Foster, William Bankes, Chris Russell
cs.AI

초록

LLM에 확장 추론을 적용해 모든 문제를 처리하는 것은 비용이 많이 들지만, 어떤 입력에 추가 계산이 실제로 필요한지 판단하는 것은 여전히 어려운 과제입니다. 우리는 모델이 생성하기 전의 내부 표현에서 자체 성공 가능성을 복원할 수 있는지, 그리고 이러한 신호가 더 효율적인 추론을 안내할 수 있는지 조사합니다. 수학 및 코딩 과제에서 정책별 성공을 예측하기 위해 생성 전 활성화값에 선형 탐침을 학습시킨 결과, 질문 길이나 TF-IDF 같은 표면적 특징을 크게 능가하는 성능을 보였습니다. 동일한 문제에 대한 인간과 모델의 성능을 모두 제공하는 E2H-AMC를 사용하여, 모델이 인간의 난이도와 구별되는 모델 특유의 난이도 개념을 인코딩하며, 이러한 차이가 확장 추론 시 증가함을 보여줍니다. 이러한 탐침을 활용하여 여러 모델 풀에서 질의를 라우팅하는 방식이 MATH 데이터셋에서 최고 성능 모델을 능가하면서도 추론 비용을 최대 70%까지 절감할 수 있음을 입증합니다. 이는 내부 표현이 인간의 난이도 직관과 다르더라도 실용적인 효율성 향상을 가능하게 함을 보여줍니다. 우리의 코드는 https://github.com/KabakaWilliam/llms_know_difficulty에서 확인할 수 있습니다.
English
Running LLMs with extended reasoning on every problem is expensive, but determining which inputs actually require additional compute remains challenging. We investigate whether their own likelihood of success is recoverable from their internal representations before generation, and if this signal can guide more efficient inference. We train linear probes on pre-generation activations to predict policy-specific success on math and coding tasks, substantially outperforming surface features such as question length and TF-IDF. Using E2H-AMC, which provides both human and model performance on identical problems, we show that models encode a model-specific notion of difficulty that is distinct from human difficulty, and that this distinction increases with extended reasoning. Leveraging these probes, we demonstrate that routing queries across a pool of models can exceed the best-performing model whilst reducing inference cost by up to 70\% on MATH, showing that internal representations enable practical efficiency gains even when they diverge from human intuitions about difficulty. Our code is available at: https://github.com/KabakaWilliam/llms_know_difficulty
PDF11February 12, 2026