CLUE: Niet-parametrische verificatie op basis van ervaring via clustering van verborgen toestanden
CLUE: Non-parametric Verification from Experience via Hidden-State Clustering
October 2, 2025
Auteurs: Zhenwen Liang, Ruosen Li, Yujun Zhou, Linfeng Song, Dian Yu, Xinya Du, Haitao Mi, Dong Yu
cs.AI
Samenvatting
Het beoordelen van de kwaliteit van uitvoer van Large Language Models (LLM's) vormt een kritieke uitdaging. Bestaande methoden vertrouwen ofwel op tekstniveau-informatie (bijvoorbeeld beloningsmodellen, meerderheidsstemming), wat kan leiden tot overfitting aan oppervlakkige signalen, of op gekalibreerde betrouwbaarheid gebaseerd op tokenwaarschijnlijkheden, wat faalt bij minder goed gekalibreerde modellen. Beide signalen zijn echter slechts gedeeltelijke projecties van een rijker informatiebron: de interne verborgen toestanden van het model. Vroege lagen, dichter bij token-embeddings, behouden semantische en lexicale kenmerken die ten grondslag liggen aan tekstgebaseerde beoordelingen, terwijl latere lagen steeds meer aansluiten bij uitvoer-logits en betrouwbaarheidsgerelateerde informatie bevatten. Dit artikel onderzoekt verborgen toestanden direct als een uniforme basis voor verificatie. We tonen aan dat de correctheid van een oplossing gecodeerd is als een geometrisch scheidbaar signatuur binnen het traject van verborgen activeringen. Om dit te valideren, presenteren we Clue (Clustering and Experience-based Verification), een bewust minimalistisch, niet-parametrisch verificatiemodel. Zonder trainbare parameters vat CLUE elke redeneersporen samen door een delta van verborgen toestanden en classificeert correctheid via de dichtstbijzijnde-centroïde afstand tot "succes"- en "falen"-clusters gevormd uit eerdere ervaringen. De eenvoud van deze methode benadrukt de kracht van het onderliggende signaal. Empirisch presteert CLUE consistent beter dan LLM-as-a-judge-baselines en evenaart of overtreft moderne betrouwbaarheidsgebaseerde methoden bij het herrangschikken van kandidaten, waarbij zowel de top-1- als de meerderheidsstemmingsnauwkeurigheid verbetert op AIME 24/25 en GPQA. Als hoogtepunt verbetert CLUE op AIME 24 met een 1,5B-model de nauwkeurigheid van 56,7% (meerderheid@64) naar 70,0% (top-meerderheid@16).
English
Assessing the quality of Large Language Model (LLM) outputs presents a
critical challenge. Previous methods either rely on text-level information
(e.g., reward models, majority voting), which can overfit to superficial cues,
or on calibrated confidence from token probabilities, which would fail on
less-calibrated models. Yet both of these signals are, in fact, partial
projections of a richer source of information: the model's internal hidden
states. Early layers, closer to token embeddings, preserve semantic and lexical
features that underpin text-based judgments, while later layers increasingly
align with output logits, embedding confidence-related information. This paper
explores hidden states directly as a unified foundation for verification. We
show that the correctness of a solution is encoded as a geometrically separable
signature within the trajectory of hidden activations. To validate this, we
present Clue (Clustering and Experience-based Verification), a deliberately
minimalist, non-parametric verifier. With no trainable parameters, CLUE only
summarizes each reasoning trace by an hidden state delta and classifies
correctness via nearest-centroid distance to ``success'' and ``failure''
clusters formed from past experience. The simplicity of this method highlights
the strength of the underlying signal. Empirically, CLUE consistently
outperforms LLM-as-a-judge baselines and matches or exceeds modern
confidence-based methods in reranking candidates, improving both top-1 and
majority-vote accuracy across AIME 24/25 and GPQA. As a highlight, on AIME 24
with a 1.5B model, CLUE boosts accuracy from 56.7% (majority@64) to 70.0%
(top-maj@16).