Les LLM peuvent-ils prédire leurs propres échecs ? Conscience de soi via les circuits internes
Can LLMs Predict Their Own Failures? Self-Awareness via Internal Circuits
December 23, 2025
papers.authors: Amirhosein Ghasemabadi, Di Niu
cs.AI
papers.abstract
Les grands modèles de langage (LLM) produisent des sorties fluides et complexes mais peinent souvent à reconnaître leurs propres erreurs et hallucinations. Les approches existantes reposent généralement sur des évaluateurs externes, la cohérence multi-échantillons ou l'auto-critique textuelle, ce qui entraîne des coûts de calcul supplémentaires ou une corrélation faible avec la justesse réelle. Nous posons la question : les LLM peuvent-ils prédire leurs propres échecs en inspectant leurs états internes durant l'inférence ? Nous présentons Gnosis, un mécanisme léger d'auto-conscience qui permet à des LLM figés d'effectuer une auto-vérification intrinsèque en décodant les signaux issus des états cachés et des motifs d'attention. Gnosis observe passivement les traces internes, les compresse en descripteurs à budget fixe, et prédit la justesse avec un coût d'inférence négligeable, n'ajoutant qu'environ 5 millions de paramètres et fonctionnant indépendamment de la longueur des séquences. Sur des benchmarks de raisonnement mathématique, de question-réponse en domaine ouvert et de connaissances académiques, et sur des architectures figées allant de 1,7 à 20 milliards de paramètres, Gnosis surpasse constamment les solides bases de référence internes et les grands évaluateurs externes tant en précision qu'en calibration. De plus, il généralise en zero-shot à des générations partielles, permettant une détection précoce des trajectoires d'échec et un contrôle adaptatif au calcul. Ces résultats montrent que des indicateurs fiables de justesse sont intrinsèques au processus de génération et peuvent être extraits efficacement sans supervision externe.
English
Large language models (LLMs) generate fluent and complex outputs but often fail to recognize their own mistakes and hallucinations. Existing approaches typically rely on external judges, multi-sample consistency, or text-based self-critique, which incur additional compute or correlate weakly with true correctness. We ask: can LLMs predict their own failures by inspecting internal states during inference? We introduce Gnosis, a lightweight self-awareness mechanism that enables frozen LLMs to perform intrinsic self-verification by decoding signals from hidden states and attention patterns. Gnosis passively observes internal traces, compresses them into fixed-budget descriptors, and predicts correctness with negligible inference cost, adding only ~5M parameters and operating independently of sequence length. Across math reasoning, open-domain question answering, and academic knowledge benchmarks, and over frozen backbones ranging from 1.7B to 20B parameters, Gnosis consistently outperforms strong internal baselines and large external judges in both accuracy and calibration. Moreover, it generalizes zero-shot to partial generations, enabling early detection of failing trajectories and compute-aware control. These results show that reliable correctness cues are intrinsic to generation process and can be extracted efficiently without external supervision.