CLUE : Vérification non paramétrique à partir de l'expérience via le regroupement d'états cachés
CLUE: Non-parametric Verification from Experience via Hidden-State Clustering
October 2, 2025
papers.authors: Zhenwen Liang, Ruosen Li, Yujun Zhou, Linfeng Song, Dian Yu, Xinya Du, Haitao Mi, Dong Yu
cs.AI
papers.abstract
L'évaluation de la qualité des sorties des modèles de langage de grande taille (LLM) représente un défi critique. Les méthodes précédentes reposent soit sur des informations au niveau du texte (par exemple, des modèles de récompense, le vote majoritaire), qui peuvent sur-apprendre des indices superficiels, soit sur la confiance calibrée à partir des probabilités des tokens, ce qui échoue sur des modèles moins calibrés. Pourtant, ces deux signaux sont en réalité des projections partielles d'une source d'information plus riche : les états internes cachés du modèle. Les couches initiales, plus proches des embeddings de tokens, préservent les caractéristiques sémantiques et lexicales qui sous-tendent les jugements basés sur le texte, tandis que les couches ultérieures s'alignent de plus en plus avec les logits de sortie, intégrant des informations liées à la confiance. Cet article explore directement les états cachés comme fondement unifié pour la vérification. Nous montrons que la correction d'une solution est encodée comme une signature géométriquement séparable dans la trajectoire des activations cachées. Pour valider cela, nous présentons Clue (Clustering and Experience-based Verification), un vérificateur délibérément minimaliste et non paramétrique. Sans paramètres entraînables, CLUE résume chaque trace de raisonnement par un delta d'état caché et classe la correction via la distance au centroïde le plus proche des clusters de « succès » et « échec » formés à partir d'expériences passées. La simplicité de cette méthode met en évidence la force du signal sous-jacent. Empiriquement, CLUE surpasse systématiquement les bases de référence LLM-comme-juge et égale ou dépasse les méthodes modernes basées sur la confiance dans le réclassement des candidats, améliorant à la fois la précision top-1 et le vote majoritaire sur AIME 24/25 et GPQA. En point culminant, sur AIME 24 avec un modèle de 1,5 milliard de paramètres, CLUE augmente la précision de 56,7 % (majorité@64) à 70,0 % (top-maj@16).
English
Assessing the quality of Large Language Model (LLM) outputs presents a
critical challenge. Previous methods either rely on text-level information
(e.g., reward models, majority voting), which can overfit to superficial cues,
or on calibrated confidence from token probabilities, which would fail on
less-calibrated models. Yet both of these signals are, in fact, partial
projections of a richer source of information: the model's internal hidden
states. Early layers, closer to token embeddings, preserve semantic and lexical
features that underpin text-based judgments, while later layers increasingly
align with output logits, embedding confidence-related information. This paper
explores hidden states directly as a unified foundation for verification. We
show that the correctness of a solution is encoded as a geometrically separable
signature within the trajectory of hidden activations. To validate this, we
present Clue (Clustering and Experience-based Verification), a deliberately
minimalist, non-parametric verifier. With no trainable parameters, CLUE only
summarizes each reasoning trace by an hidden state delta and classifies
correctness via nearest-centroid distance to ``success'' and ``failure''
clusters formed from past experience. The simplicity of this method highlights
the strength of the underlying signal. Empirically, CLUE consistently
outperforms LLM-as-a-judge baselines and matches or exceeds modern
confidence-based methods in reranking candidates, improving both top-1 and
majority-vote accuracy across AIME 24/25 and GPQA. As a highlight, on AIME 24
with a 1.5B model, CLUE boosts accuracy from 56.7% (majority@64) to 70.0%
(top-maj@16).