Verlorene Energie in großen Sprachmodellen

Zusammenfassung

Wir interpret den finalen Softmax-Klassifikator eines Large Language Model (LLM) neu als Energy-Based Model (EBM) und zerlegen die Sequenz-zu-Sequenz-Wahrscheinlichkeitskette während des Inferenzvorgangs in mehrere interagierende EBMs. Dieser prinzipiengeleitete Ansatz ermöglicht es uns, „Energieverluste“ (Energy Spills) während der Decodierung zu verfolgen, von denen wir empirisch zeigen, dass sie mit faktischen Fehlern, Verzerrungen und Fehlschlägen korrelieren. Ähnlich wie bei Orgad et al. (2025) lokalisiert unsere Methode das exakte Antwort-Token und prüft anschließend auf Halluzinationen. Entscheidend ist jedoch, dass wir dies ohne trainierte Probe-Klassifikatoren oder Aktivierungsablationen erreichen. Stattdessen führen wir zwei vollständig trainingsfreie Metriken ein, die direkt aus den Ausgabe-Logits abgeleitet werden: die *Spilled Energy*, die die Diskrepanz zwischen Energie-Werten aufeinanderfolgender Generierungsschritte erfasst, die theoretisch übereinstimmen sollten, und die *Marginalized Energy*, die in einem einzelnen Schritt messbar ist. Evaluierungen auf neun Benchmarks mit state-of-the-art LLMs (einschließlich LLaMA, Mistral und Gemma) sowie an synthetischen algebraischen Operationen (Qwen3) zeigen, dass unser Ansatz eine robuste, wettbewerbsfähige Halluzinationserkennung und generalisierungsfähige Übertragbarkeit über Aufgaben hinweg ermöglicht. Bemerkenswerterweise gelten diese Ergebnisse sowohl für vortrainierte als auch für instruction-tuned Varianten, ohne zusätzlichen Trainingsaufwand zu verursachen. Code verfügbar unter: github.com/OmnAI-Lab/spilled-energy

English

We reinterpret the final Large Language Model (LLM) softmax classifier as an Energy-Based Model (EBM), decomposing the sequence-to-sequence probability chain into multiple interacting EBMs at inference. This principled approach allows us to track "energy spills" during decoding, which we empirically show correlate with factual errors, biases, and failures. Similar to Orgad et al. (2025), our method localizes the exact answer token and subsequently tests for hallucinations. Crucially, however, we achieve this without requiring trained probe classifiers or activation ablations. Instead, we introduce two completely training-free metrics derived directly from output logits: spilled energy, which captures the discrepancy between energy values across consecutive generation steps that should theoretically match, and marginalized energy, which is measurable at a single step. Evaluated on nine benchmarks across state-of-the-art LLMs (including LLaMA, Mistral, and Gemma) and on synthetic algebraic operations (Qwen3), our approach demonstrates robust, competitive hallucination detection and cross-task generalization. Notably, these results hold for both pretrained and instruction-tuned variants without introducing any training overhead. Code available at: github.com/OmnAI-Lab/spilled-energy

Verlorene Energie in großen Sprachmodellen

Spilled Energy in Large Language Models

Zusammenfassung

Support