Les LLM encodent leurs échecs : prédire le succès à partir des activations pré-génération

papers.abstract

L'exécution de LLMs avec un raisonnement étendu sur chaque problème est coûteuse, mais déterminer quelles entrées nécessitent réellement une puissance de calcul supplémentaire reste un défi. Nous étudions si la probabilité de leur propre succès est récupérable à partir de leurs représentations internes avant la génération, et si ce signal peut guider une inférence plus efficace. Nous entraînons des sondes linéaires sur les activations pré-génération pour prédire le succès spécifique à la politique sur des tâches de mathématiques et de codage, surpassant nettement les caractéristiques de surface telles que la longueur de la question et TF-IDF. En utilisant E2H-AMC, qui fournit les performances humaines et du modèle sur des problèmes identiques, nous montrons que les modèles codent une notion de difficulté spécifique au modèle, distincte de la difficulté humaine, et que cette distinction augmente avec le raisonnement étendu. En tirant parti de ces sondes, nous démontrons que l'acheminement des requêtes à travers un pool de modèles peut surpasser le modèle le plus performant tout en réduisant le coût d'inférence jusqu'à 70 % sur MATH, montrant que les représentations internes permettent des gains d'efficacité pratiques même lorsqu'elles divergent des intuitions humaines sur la difficulté. Notre code est disponible à l'adresse : https://github.com/KabakaWilliam/llms_know_difficulty

English

Running LLMs with extended reasoning on every problem is expensive, but determining which inputs actually require additional compute remains challenging. We investigate whether their own likelihood of success is recoverable from their internal representations before generation, and if this signal can guide more efficient inference. We train linear probes on pre-generation activations to predict policy-specific success on math and coding tasks, substantially outperforming surface features such as question length and TF-IDF. Using E2H-AMC, which provides both human and model performance on identical problems, we show that models encode a model-specific notion of difficulty that is distinct from human difficulty, and that this distinction increases with extended reasoning. Leveraging these probes, we demonstrate that routing queries across a pool of models can exceed the best-performing model whilst reducing inference cost by up to 70\% on MATH, showing that internal representations enable practical efficiency gains even when they diverge from human intuitions about difficulty. Our code is available at: https://github.com/KabakaWilliam/llms_know_difficulty

Les LLM encodent leurs échecs : prédire le succès à partir des activations pré-génération

LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations

papers.abstract

Support