ChatPaper.aiChatPaper

CLUE: Непараметрическая верификация на основе опыта через кластеризацию скрытых состояний

CLUE: Non-parametric Verification from Experience via Hidden-State Clustering

October 2, 2025
Авторы: Zhenwen Liang, Ruosen Li, Yujun Zhou, Linfeng Song, Dian Yu, Xinya Du, Haitao Mi, Dong Yu
cs.AI

Аннотация

Оценка качества выходных данных крупных языковых моделей (LLM) представляет собой важную задачу. Существующие методы либо полагаются на текстовую информацию (например, модели вознаграждения, мажоритарное голосование), что может приводить к переобучению на поверхностных признаках, либо на калиброванные вероятности токенов, что не работает для менее калиброванных моделей. Однако оба этих сигнала являются частичными проекциями более богатого источника информации — внутренних скрытых состояний модели. Ранние слои, ближе к токенным эмбеддингам, сохраняют семантические и лексические признаки, лежащие в основе текстовых суждений, тогда как более поздние слои всё больше соответствуют выходным логитам, содержащим информацию, связанную с уверенностью. В данной статье исследуются скрытые состояния как универсальная основа для верификации. Мы показываем, что правильность решения закодирована в виде геометрически разделяемой сигнатуры в траектории скрытых активаций. Для подтверждения этого мы представляем Clue (Clustering and Experience-based Verification), намеренно минималистичный непараметрический верификатор. Без обучаемых параметров CLUE лишь суммирует каждый след рассуждений через разницу скрытых состояний и классифицирует правильность по расстоянию до ближайшего центроида кластеров «успех» и «неудача», сформированных на основе прошлого опыта. Простота этого метода подчеркивает силу лежащего в его основе сигнала. Эмпирически CLUE стабильно превосходит базовые подходы с использованием LLM в качестве судьи и соответствует или превосходит современные методы, основанные на уверенности, при ранжировании кандидатов, улучшая как точность top-1, так и мажоритарного голосования на наборах данных AIME 24/25 и GPQA. В частности, на AIME 24 с моделью на 1,5 млрд параметров CLUE повышает точность с 56,7% (majority@64) до 70,0% (top-maj@16).
English
Assessing the quality of Large Language Model (LLM) outputs presents a critical challenge. Previous methods either rely on text-level information (e.g., reward models, majority voting), which can overfit to superficial cues, or on calibrated confidence from token probabilities, which would fail on less-calibrated models. Yet both of these signals are, in fact, partial projections of a richer source of information: the model's internal hidden states. Early layers, closer to token embeddings, preserve semantic and lexical features that underpin text-based judgments, while later layers increasingly align with output logits, embedding confidence-related information. This paper explores hidden states directly as a unified foundation for verification. We show that the correctness of a solution is encoded as a geometrically separable signature within the trajectory of hidden activations. To validate this, we present Clue (Clustering and Experience-based Verification), a deliberately minimalist, non-parametric verifier. With no trainable parameters, CLUE only summarizes each reasoning trace by an hidden state delta and classifies correctness via nearest-centroid distance to ``success'' and ``failure'' clusters formed from past experience. The simplicity of this method highlights the strength of the underlying signal. Empirically, CLUE consistently outperforms LLM-as-a-judge baselines and matches or exceeds modern confidence-based methods in reranking candidates, improving both top-1 and majority-vote accuracy across AIME 24/25 and GPQA. As a highlight, on AIME 24 with a 1.5B model, CLUE boosts accuracy from 56.7% (majority@64) to 70.0% (top-maj@16).
PDF221October 3, 2025