Dispersione di Energia nei Grandi Modelli Linguistici

Abstract

Reinterpretiamo il classificatore softmax finale di un Large Language Model (LLM) come un Modello Basato sull'Energia (EBM), scomponendo la catena di probabilità sequenza-a-sequenza in più EBM interagenti durante l'inferenza. Questo approccio basato su principi ci permette di tracciare i "dissipi di energia" durante la decodifica, che mostriamo empiricamente correlare con errori fattuali, bias e fallimenti. Similmente a Orgad et al. (2025), il nostro metodo localizza il token di risposta esatto e successivamente testa le allucinazioni. Tuttavia, in modo cruciale, otteniamo ciò senza richiedere classificatori probe addestrati o ablazioni delle attivazioni. Introduciamo invece due metriche completamente prive di addestramento, derivate direttamente dai logit in output: l'energia dissipata, che cattura la discrepanza tra i valori di energia attraverso passi di generazione consecutivi che teoricamente dovrebbero coincidere, e l'energia marginalizzata, che è misurabile in un singolo passo. Valutato su nove benchmark che coinvolgono LLM all'avanguardia (inclusi LLaMA, Mistral e Gemma) e su operazioni algebriche sintetiche (Qwen3), il nostro approccio dimostra una rilevazione delle allucinazioni robusta e competitiva, nonché una generalizzazione cross-task. Notevolmente, questi risultati valgono sia per varianti pre-addestrate che instruction-tuned senza introdurre alcun sovraccarico computazionale addizionale. Codice disponibile su: github.com/OmnAI-Lab/spilled-energy

English

We reinterpret the final Large Language Model (LLM) softmax classifier as an Energy-Based Model (EBM), decomposing the sequence-to-sequence probability chain into multiple interacting EBMs at inference. This principled approach allows us to track "energy spills" during decoding, which we empirically show correlate with factual errors, biases, and failures. Similar to Orgad et al. (2025), our method localizes the exact answer token and subsequently tests for hallucinations. Crucially, however, we achieve this without requiring trained probe classifiers or activation ablations. Instead, we introduce two completely training-free metrics derived directly from output logits: spilled energy, which captures the discrepancy between energy values across consecutive generation steps that should theoretically match, and marginalized energy, which is measurable at a single step. Evaluated on nine benchmarks across state-of-the-art LLMs (including LLaMA, Mistral, and Gemma) and on synthetic algebraic operations (Qwen3), our approach demonstrates robust, competitive hallucination detection and cross-task generalization. Notably, these results hold for both pretrained and instruction-tuned variants without introducing any training overhead. Code available at: github.com/OmnAI-Lab/spilled-energy

Dispersione di Energia nei Grandi Modelli Linguistici

Spilled Energy in Large Language Models

Abstract

Support