CLUE: Nichtparametrische Verifikation aus Erfahrung durch Clustering versteckter Zustände

papers.abstract

Die Bewertung der Qualität von Ausgaben großer Sprachmodelle (Large Language Models, LLMs) stellt eine kritische Herausforderung dar. Bisherige Methoden stützen sich entweder auf textbasierte Informationen (z. B. Belohnungsmodelle, Mehrheitsabstimmungen), die sich an oberflächlichen Hinweisen überanpassen können, oder auf kalibrierte Konfidenzwerte aus Token-Wahrscheinlichkeiten, die bei weniger kalibrierten Modellen versagen. Beide Signale sind jedoch tatsächlich Teilprojektionen einer reicheren Informationsquelle: den internen verborgenen Zuständen des Modells. Frühe Schichten, die näher an den Token-Einbettungen liegen, bewahren semantische und lexikalische Merkmale, die textbasierte Urteile untermauern, während spätere Schichten zunehmend mit den Ausgabe-Logits übereinstimmen und konfidenzbezogene Informationen einbetten. Dieses Papier untersucht verborgene Zustände direkt als einheitliche Grundlage für die Verifikation. Wir zeigen, dass die Korrektheit einer Lösung als geometrisch trennbares Merkmal innerhalb der Trajektorie der verborgenen Aktivierungen kodiert ist. Um dies zu validieren, präsentieren wir Clue (Clustering and Experience-based Verification), einen bewusst minimalistischen, nicht-parametrischen Verifizierer. Ohne trainierbare Parameter fasst CLUE jeden Denkpfad lediglich durch eine Delta-Differenz der verborgenen Zustände zusammen und klassifiziert die Korrektheit anhand der nächstgelegenen Zentroid-Distanz zu „Erfolgs“- und „Misserfolgs“-Clustern, die aus vergangenen Erfahrungen gebildet werden. Die Einfachheit dieser Methode unterstreicht die Stärke des zugrunde liegenden Signals. Empirisch übertrifft CLUE konsistent LLM-as-a-Judge-Baselines und erreicht oder übertrifft moderne konfidenzbasierte Methoden bei der Neubewertung von Kandidaten, wodurch sowohl die Top-1- als auch die Mehrheitsabstimmungsgenauigkeit über AIME 24/25 und GPQA verbessert wird. Als Höhepunkt steigert CLUE auf AIME 24 mit einem 1,5B-Modell die Genauigkeit von 56,7 % (Mehrheit@64) auf 70,0 % (Top-Maj@16).

English

Assessing the quality of Large Language Model (LLM) outputs presents a critical challenge. Previous methods either rely on text-level information (e.g., reward models, majority voting), which can overfit to superficial cues, or on calibrated confidence from token probabilities, which would fail on less-calibrated models. Yet both of these signals are, in fact, partial projections of a richer source of information: the model's internal hidden states. Early layers, closer to token embeddings, preserve semantic and lexical features that underpin text-based judgments, while later layers increasingly align with output logits, embedding confidence-related information. This paper explores hidden states directly as a unified foundation for verification. We show that the correctness of a solution is encoded as a geometrically separable signature within the trajectory of hidden activations. To validate this, we present Clue (Clustering and Experience-based Verification), a deliberately minimalist, non-parametric verifier. With no trainable parameters, CLUE only summarizes each reasoning trace by an hidden state delta and classifies correctness via nearest-centroid distance to ``success'' and ``failure'' clusters formed from past experience. The simplicity of this method highlights the strength of the underlying signal. Empirically, CLUE consistently outperforms LLM-as-a-judge baselines and matches or exceeds modern confidence-based methods in reranking candidates, improving both top-1 and majority-vote accuracy across AIME 24/25 and GPQA. As a highlight, on AIME 24 with a 1.5B model, CLUE boosts accuracy from 56.7% (majority@64) to 70.0% (top-maj@16).

CLUE: Nichtparametrische Verifikation aus Erfahrung durch Clustering versteckter Zustände

CLUE: Non-parametric Verification from Experience via Hidden-State Clustering

papers.abstract

Support