I LLM Codificano i Loro Fallimenti: Prevedere il Successo dalle Attivazioni Pre-Generazione
LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations
February 10, 2026
Autori: William Lugoloobi, Thomas Foster, William Bankes, Chris Russell
cs.AI
Abstract
Eseguire LLM con ragionamento esteso su ogni problema è costoso, ma determinare quali input richiedano effettivamente potenza di calcolo aggiuntiva rimane una sfida. Indaghiamo se la loro stessa probabilità di successo sia recuperabile dalle loro rappresentazioni interne prima della generazione, e se questo segnale possa guidare un'inferenza più efficiente. Addestriamo sonde lineari sulle attivazioni pre-generazione per prevedere il successo specifico della policy su compiti di matematica e codifica, superando sostanzialmente feature superficiali come la lunghezza della domanda e TF-IDF. Utilizzando E2H-AMC, che fornisce le prestazioni sia umane che del modello su problemi identici, mostriamo che i modelli codificano una nozione di difficoltà specifica del modello, distinta dalla difficoltà umana, e che questa distinzione aumenta con il ragionamento esteso. Sfruttando queste sonde, dimostriamo che l'instradamento delle query attraverso un pool di modelli può superare le prestazioni del modello migliore, riducendo al contempo il costo di inferenza fino al 70% su MATH, mostrando che le rappresentazioni interne consentono guadagni di efficienza pratici anche quando divergono dalle intuizioni umane sulla difficoltà. Il nostro codice è disponibile all'indirizzo: https://github.com/KabakaWilliam/llms_know_difficulty
English
Running LLMs with extended reasoning on every problem is expensive, but determining which inputs actually require additional compute remains challenging. We investigate whether their own likelihood of success is recoverable from their internal representations before generation, and if this signal can guide more efficient inference. We train linear probes on pre-generation activations to predict policy-specific success on math and coding tasks, substantially outperforming surface features such as question length and TF-IDF. Using E2H-AMC, which provides both human and model performance on identical problems, we show that models encode a model-specific notion of difficulty that is distinct from human difficulty, and that this distinction increases with extended reasoning. Leveraging these probes, we demonstrate that routing queries across a pool of models can exceed the best-performing model whilst reducing inference cost by up to 70\% on MATH, showing that internal representations enable practical efficiency gains even when they diverge from human intuitions about difficulty. Our code is available at: https://github.com/KabakaWilliam/llms_know_difficulty