Énergie dissipée dans les grands modèles de langage

Résumé

Nous réinterprétons le classifieur softmax final d'un Grand Modèle de Langage (LLM) comme un Modèle à Base d'Énergie (EBM), en décomposant la chaîne de probabilité séquence-à-séquence en plusieurs EBM interactifs lors de l'inférence. Cette approche fondée nous permet de suivre les « fuites d'énergie » pendant le décodage, que nous montrons empiriquement être corrélées avec les erreurs factuelles, les biais et les échecs. Similairement à Orgad et al. (2025), notre méthode localise le token de réponse exact et teste ensuite la présence d'hallucinations. Cependant, et c'est crucial, nous y parvenons sans nécessiter de classifieurs sonde entraînés ou d'ablation d'activations. À la place, nous introduisons deux métriques entièrement exemptes d'entraînement, dérivées directement des logits de sortie : l'énergie déversée, qui capture l'écart entre les valeurs d'énergie à travers des étapes de génération consécutives qui devraient théoriquement correspondre, et l'énergie marginalisée, qui est mesurable en une seule étape. Évaluée sur neuf benchmarks couvrant des LLM de pointe (incluant LLaMA, Mistral et Gemma) et sur des opérations algébriques synthétiques (Qwen3), notre approche démontre une détection robuste et compétitive des hallucinations ainsi qu'une généralisation transversale aux tâches. Il est à noter que ces résultats valent à la fois pour les variantes pré-entraînées et fine-tunées par instruction, sans introduire de surcharge d'entraînement. Code disponible à l'adresse : github.com/OmnAI-Lab/spilled-energy

English

We reinterpret the final Large Language Model (LLM) softmax classifier as an Energy-Based Model (EBM), decomposing the sequence-to-sequence probability chain into multiple interacting EBMs at inference. This principled approach allows us to track "energy spills" during decoding, which we empirically show correlate with factual errors, biases, and failures. Similar to Orgad et al. (2025), our method localizes the exact answer token and subsequently tests for hallucinations. Crucially, however, we achieve this without requiring trained probe classifiers or activation ablations. Instead, we introduce two completely training-free metrics derived directly from output logits: spilled energy, which captures the discrepancy between energy values across consecutive generation steps that should theoretically match, and marginalized energy, which is measurable at a single step. Evaluated on nine benchmarks across state-of-the-art LLMs (including LLaMA, Mistral, and Gemma) and on synthetic algebraic operations (Qwen3), our approach demonstrates robust, competitive hallucination detection and cross-task generalization. Notably, these results hold for both pretrained and instruction-tuned variants without introducing any training overhead. Code available at: github.com/OmnAI-Lab/spilled-energy

Énergie dissipée dans les grands modèles de langage

Spilled Energy in Large Language Models

Résumé

Support