CLUE: Verificación No Paramétrica a partir de la Experiencia mediante Agrupación de Estados Ocultos
CLUE: Non-parametric Verification from Experience via Hidden-State Clustering
October 2, 2025
Autores: Zhenwen Liang, Ruosen Li, Yujun Zhou, Linfeng Song, Dian Yu, Xinya Du, Haitao Mi, Dong Yu
cs.AI
Resumen
Evaluar la calidad de las salidas de los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) representa un desafío crítico. Los métodos anteriores se basan ya sea en información a nivel de texto (por ejemplo, modelos de recompensa, votación por mayoría), que pueden sobreajustarse a señales superficiales, o en la confianza calibrada a partir de las probabilidades de los tokens, lo cual fallaría en modelos menos calibrados. Sin embargo, ambas señales son, de hecho, proyecciones parciales de una fuente de información más rica: los estados internos ocultos del modelo. Las capas iniciales, más cercanas a las incrustaciones de tokens, preservan características semánticas y léxicas que sustentan los juicios basados en texto, mientras que las capas posteriores se alinean cada vez más con los logits de salida, incorporando información relacionada con la confianza. Este artículo explora directamente los estados ocultos como una base unificada para la verificación. Demostramos que la corrección de una solución está codificada como una firma geométricamente separable dentro de la trayectoria de las activaciones ocultas. Para validar esto, presentamos Clue (Verificación basada en Agrupamiento y Experiencia), un verificador deliberadamente minimalista y no paramétrico. Sin parámetros entrenables, CLUE solo resume cada traza de razonamiento mediante un delta de estado oculto y clasifica la corrección mediante la distancia al centroide más cercano a los clústeres de "éxito" y "fracaso" formados a partir de experiencias pasadas. La simplicidad de este método resalta la fuerza de la señal subyacente. Empíricamente, CLUE supera consistentemente las líneas base de LLM-como-juez y coincide o supera los métodos modernos basados en confianza en la reordenación de candidatos, mejorando tanto la precisión del top-1 como la de la votación por mayoría en AIME 24/25 y GPQA. Como punto destacado, en AIME 24 con un modelo de 1.5B, CLUE aumenta la precisión del 56.7% (mayoría@64) al 70.0% (top-mayoría@16).
English
Assessing the quality of Large Language Model (LLM) outputs presents a
critical challenge. Previous methods either rely on text-level information
(e.g., reward models, majority voting), which can overfit to superficial cues,
or on calibrated confidence from token probabilities, which would fail on
less-calibrated models. Yet both of these signals are, in fact, partial
projections of a richer source of information: the model's internal hidden
states. Early layers, closer to token embeddings, preserve semantic and lexical
features that underpin text-based judgments, while later layers increasingly
align with output logits, embedding confidence-related information. This paper
explores hidden states directly as a unified foundation for verification. We
show that the correctness of a solution is encoded as a geometrically separable
signature within the trajectory of hidden activations. To validate this, we
present Clue (Clustering and Experience-based Verification), a deliberately
minimalist, non-parametric verifier. With no trainable parameters, CLUE only
summarizes each reasoning trace by an hidden state delta and classifies
correctness via nearest-centroid distance to ``success'' and ``failure''
clusters formed from past experience. The simplicity of this method highlights
the strength of the underlying signal. Empirically, CLUE consistently
outperforms LLM-as-a-judge baselines and matches or exceeds modern
confidence-based methods in reranking candidates, improving both top-1 and
majority-vote accuracy across AIME 24/25 and GPQA. As a highlight, on AIME 24
with a 1.5B model, CLUE boosts accuracy from 56.7% (majority@64) to 70.0%
(top-maj@16).