CLUE: Nichtparametrische Verifikation aus Erfahrung durch Clustering versteckter Zustände
CLUE: Non-parametric Verification from Experience via Hidden-State Clustering
October 2, 2025
papers.authors: Zhenwen Liang, Ruosen Li, Yujun Zhou, Linfeng Song, Dian Yu, Xinya Du, Haitao Mi, Dong Yu
cs.AI
papers.abstract
Die Bewertung der Qualität von Ausgaben großer Sprachmodelle (Large Language Models, LLMs) stellt eine kritische Herausforderung dar. Bisherige Methoden stützen sich entweder auf textbasierte Informationen (z. B. Belohnungsmodelle, Mehrheitsabstimmungen), die sich an oberflächlichen Hinweisen überanpassen können, oder auf kalibrierte Konfidenzwerte aus Token-Wahrscheinlichkeiten, die bei weniger kalibrierten Modellen versagen. Beide Signale sind jedoch tatsächlich Teilprojektionen einer reicheren Informationsquelle: den internen verborgenen Zuständen des Modells. Frühe Schichten, die näher an den Token-Einbettungen liegen, bewahren semantische und lexikalische Merkmale, die textbasierte Urteile untermauern, während spätere Schichten zunehmend mit den Ausgabe-Logits übereinstimmen und konfidenzbezogene Informationen einbetten. Dieses Papier untersucht verborgene Zustände direkt als einheitliche Grundlage für die Verifikation. Wir zeigen, dass die Korrektheit einer Lösung als geometrisch trennbares Merkmal innerhalb der Trajektorie der verborgenen Aktivierungen kodiert ist. Um dies zu validieren, präsentieren wir Clue (Clustering and Experience-based Verification), einen bewusst minimalistischen, nicht-parametrischen Verifizierer. Ohne trainierbare Parameter fasst CLUE jeden Denkpfad lediglich durch eine Delta-Differenz der verborgenen Zustände zusammen und klassifiziert die Korrektheit anhand der nächstgelegenen Zentroid-Distanz zu „Erfolgs“- und „Misserfolgs“-Clustern, die aus vergangenen Erfahrungen gebildet werden. Die Einfachheit dieser Methode unterstreicht die Stärke des zugrunde liegenden Signals. Empirisch übertrifft CLUE konsistent LLM-as-a-Judge-Baselines und erreicht oder übertrifft moderne konfidenzbasierte Methoden bei der Neubewertung von Kandidaten, wodurch sowohl die Top-1- als auch die Mehrheitsabstimmungsgenauigkeit über AIME 24/25 und GPQA verbessert wird. Als Höhepunkt steigert CLUE auf AIME 24 mit einem 1,5B-Modell die Genauigkeit von 56,7 % (Mehrheit@64) auf 70,0 % (Top-Maj@16).
English
Assessing the quality of Large Language Model (LLM) outputs presents a
critical challenge. Previous methods either rely on text-level information
(e.g., reward models, majority voting), which can overfit to superficial cues,
or on calibrated confidence from token probabilities, which would fail on
less-calibrated models. Yet both of these signals are, in fact, partial
projections of a richer source of information: the model's internal hidden
states. Early layers, closer to token embeddings, preserve semantic and lexical
features that underpin text-based judgments, while later layers increasingly
align with output logits, embedding confidence-related information. This paper
explores hidden states directly as a unified foundation for verification. We
show that the correctness of a solution is encoded as a geometrically separable
signature within the trajectory of hidden activations. To validate this, we
present Clue (Clustering and Experience-based Verification), a deliberately
minimalist, non-parametric verifier. With no trainable parameters, CLUE only
summarizes each reasoning trace by an hidden state delta and classifies
correctness via nearest-centroid distance to ``success'' and ``failure''
clusters formed from past experience. The simplicity of this method highlights
the strength of the underlying signal. Empirically, CLUE consistently
outperforms LLM-as-a-judge baselines and matches or exceeds modern
confidence-based methods in reranking candidates, improving both top-1 and
majority-vote accuracy across AIME 24/25 and GPQA. As a highlight, on AIME 24
with a 1.5B model, CLUE boosts accuracy from 56.7% (majority@64) to 70.0%
(top-maj@16).