CLUE: Verifica Non Parametrica dall'Esperienza tramite Clustering di Stati Nascosti
CLUE: Non-parametric Verification from Experience via Hidden-State Clustering
October 2, 2025
Autori: Zhenwen Liang, Ruosen Li, Yujun Zhou, Linfeng Song, Dian Yu, Xinya Du, Haitao Mi, Dong Yu
cs.AI
Abstract
Valutare la qualità degli output dei Modelli Linguistici di Grande Dimensione (LLM) rappresenta una sfida cruciale. I metodi precedenti si basano su informazioni a livello di testo (ad esempio, modelli di ricompensa, voto a maggioranza), che possono sovraadattarsi a indizi superficiali, o su una fiducia calibrata derivante dalle probabilità dei token, che fallirebbe su modelli meno calibrati. Tuttavia, entrambi questi segnali sono, in realtà, proiezioni parziali di una fonte di informazioni più ricca: gli stati interni nascosti del modello. Gli strati iniziali, più vicini agli embedding dei token, preservano caratteristiche semantiche e lessicali che sostengono i giudizi basati sul testo, mentre gli strati successivi si allineano sempre più con i logit di output, incorporando informazioni relative alla fiducia. Questo articolo esplora direttamente gli stati nascosti come fondamento unificato per la verifica. Dimostriamo che la correttezza di una soluzione è codificata come una firma geometricamente separabile all'interno della traiettoria delle attivazioni nascoste. Per validare ciò, presentiamo Clue (Clustering and Experience-based Verification), un verificatore volutamente minimalista e non parametrico. Senza parametri addestrabili, CLUE riassume ogni traccia di ragionamento con un delta dello stato nascosto e classifica la correttezza attraverso la distanza al centroide più vicino ai cluster di "successo" e "fallimento" formati dall'esperienza passata. La semplicità di questo metodo evidenzia la forza del segnale sottostante. Empiricamente, CLUE supera costantemente i baseline di LLM-as-a-judge eguaglia o supera i metodi moderni basati sulla fiducia nel riordinare i candidati, migliorando sia l'accuratezza top-1 che quella a maggioranza su AIME 24/25 e GPQA. Come punto di forza, su AIME 24 con un modello da 1.5B, CLUE aumenta l'accuratezza dal 56.7% (maggioranza@64) al 70.0% (top-maggioranza@16).
English
Assessing the quality of Large Language Model (LLM) outputs presents a
critical challenge. Previous methods either rely on text-level information
(e.g., reward models, majority voting), which can overfit to superficial cues,
or on calibrated confidence from token probabilities, which would fail on
less-calibrated models. Yet both of these signals are, in fact, partial
projections of a richer source of information: the model's internal hidden
states. Early layers, closer to token embeddings, preserve semantic and lexical
features that underpin text-based judgments, while later layers increasingly
align with output logits, embedding confidence-related information. This paper
explores hidden states directly as a unified foundation for verification. We
show that the correctness of a solution is encoded as a geometrically separable
signature within the trajectory of hidden activations. To validate this, we
present Clue (Clustering and Experience-based Verification), a deliberately
minimalist, non-parametric verifier. With no trainable parameters, CLUE only
summarizes each reasoning trace by an hidden state delta and classifies
correctness via nearest-centroid distance to ``success'' and ``failure''
clusters formed from past experience. The simplicity of this method highlights
the strength of the underlying signal. Empirically, CLUE consistently
outperforms LLM-as-a-judge baselines and matches or exceeds modern
confidence-based methods in reranking candidates, improving both top-1 and
majority-vote accuracy across AIME 24/25 and GPQA. As a highlight, on AIME 24
with a 1.5B model, CLUE boosts accuracy from 56.7% (majority@64) to 70.0%
(top-maj@16).