CLUE: Niet-parametrische verificatie op basis van ervaring via clustering van verborgen toestanden

Samenvatting

Het beoordelen van de kwaliteit van uitvoer van Large Language Models (LLM's) vormt een kritieke uitdaging. Bestaande methoden vertrouwen ofwel op tekstniveau-informatie (bijvoorbeeld beloningsmodellen, meerderheidsstemming), wat kan leiden tot overfitting aan oppervlakkige signalen, of op gekalibreerde betrouwbaarheid gebaseerd op tokenwaarschijnlijkheden, wat faalt bij minder goed gekalibreerde modellen. Beide signalen zijn echter slechts gedeeltelijke projecties van een rijker informatiebron: de interne verborgen toestanden van het model. Vroege lagen, dichter bij token-embeddings, behouden semantische en lexicale kenmerken die ten grondslag liggen aan tekstgebaseerde beoordelingen, terwijl latere lagen steeds meer aansluiten bij uitvoer-logits en betrouwbaarheidsgerelateerde informatie bevatten. Dit artikel onderzoekt verborgen toestanden direct als een uniforme basis voor verificatie. We tonen aan dat de correctheid van een oplossing gecodeerd is als een geometrisch scheidbaar signatuur binnen het traject van verborgen activeringen. Om dit te valideren, presenteren we Clue (Clustering and Experience-based Verification), een bewust minimalistisch, niet-parametrisch verificatiemodel. Zonder trainbare parameters vat CLUE elke redeneersporen samen door een delta van verborgen toestanden en classificeert correctheid via de dichtstbijzijnde-centroïde afstand tot "succes"- en "falen"-clusters gevormd uit eerdere ervaringen. De eenvoud van deze methode benadrukt de kracht van het onderliggende signaal. Empirisch presteert CLUE consistent beter dan LLM-as-a-judge-baselines en evenaart of overtreft moderne betrouwbaarheidsgebaseerde methoden bij het herrangschikken van kandidaten, waarbij zowel de top-1- als de meerderheidsstemmingsnauwkeurigheid verbetert op AIME 24/25 en GPQA. Als hoogtepunt verbetert CLUE op AIME 24 met een 1,5B-model de nauwkeurigheid van 56,7% (meerderheid@64) naar 70,0% (top-meerderheid@16).

English

Assessing the quality of Large Language Model (LLM) outputs presents a critical challenge. Previous methods either rely on text-level information (e.g., reward models, majority voting), which can overfit to superficial cues, or on calibrated confidence from token probabilities, which would fail on less-calibrated models. Yet both of these signals are, in fact, partial projections of a richer source of information: the model's internal hidden states. Early layers, closer to token embeddings, preserve semantic and lexical features that underpin text-based judgments, while later layers increasingly align with output logits, embedding confidence-related information. This paper explores hidden states directly as a unified foundation for verification. We show that the correctness of a solution is encoded as a geometrically separable signature within the trajectory of hidden activations. To validate this, we present Clue (Clustering and Experience-based Verification), a deliberately minimalist, non-parametric verifier. With no trainable parameters, CLUE only summarizes each reasoning trace by an hidden state delta and classifies correctness via nearest-centroid distance to ``success'' and ``failure'' clusters formed from past experience. The simplicity of this method highlights the strength of the underlying signal. Empirically, CLUE consistently outperforms LLM-as-a-judge baselines and matches or exceeds modern confidence-based methods in reranking candidates, improving both top-1 and majority-vote accuracy across AIME 24/25 and GPQA. As a highlight, on AIME 24 with a 1.5B model, CLUE boosts accuracy from 56.7% (majority@64) to 70.0% (top-maj@16).

CLUE: Niet-parametrische verificatie op basis van ervaring via clustering van verborgen toestanden

CLUE: Non-parametric Verification from Experience via Hidden-State Clustering

Samenvatting

Support