Переосмысление LLM-как-судьи: Представление-как-судья с помощью малых языковых моделей через асимметрию семантической емкости

Аннотация

Крупные языковые модели (LLM) широко используются как беспристрастные оценщики через промптинг, однако парадигма «LLM-как-судья» является дорогостоящей, непрозрачной и чувствительной к дизайну промптов. В данной работе мы исследуем, могут ли меньшие модели служить эффективными оценщиками, используя внутренние представления вместо поверхностного генеративного вывода. Мы выявляем устойчивую эмпирическую закономерность: малые языковые модели, несмотря на слабые генеративные способности, кодируют богатые оценочные сигналы в своих скрытых состояниях. Это побуждает нас выдвинуть Гипотезу асимметрии семантической ёмкости: для оценки требуется значительно меньшая семантическая ёмкость, чем для генерации, и она может быть основана на промежуточных представлениях, что свидетельствует о том, что оценка не обязательно должна опираться на крупномасштабные генеративные модели, а может использовать латентные признаки меньших моделей. Наши результаты мотивируют смену парадигмы с «LLM-как-судья» на «Представление-как-судья» — стратегию оценки, свободную от декодирования, которая исследует внутреннюю структуру модели вместо опоры на промптированный вывод. Мы реализуем эту парадигму через INSPECTOR, фреймворк на основе probing-а, который предсказывает оценки на уровне аспектов из представлений малых моделей. Эксперименты на бенчмарках логического мышления (GSM8K, MATH, GPQA) показывают, что INSPECTOR существенно превосходит малые LM на основе промптинга и близко приближается к полноценным LLM-судьям, предлагая при этом более эффективную, надежную и интерпретируемую альтернативу для масштабируемой оценки.

English

Large language models (LLMs) are widely used as reference-free evaluators via prompting, but this "LLM-as-a-Judge" paradigm is costly, opaque, and sensitive to prompt design. In this work, we investigate whether smaller models can serve as efficient evaluators by leveraging internal representations instead of surface generation. We uncover a consistent empirical pattern: small LMs, despite with weak generative ability, encode rich evaluative signals in their hidden states. This motivates us to propose the Semantic Capacity Asymmetry Hypothesis: evaluation requires significantly less semantic capacity than generation and can be grounded in intermediate representations, suggesting that evaluation does not necessarily need to rely on large-scale generative models but can instead leverage latent features from smaller ones. Our findings motivate a paradigm shift from LLM-as-a-Judge to Representation-as-a-Judge, a decoding-free evaluation strategy that probes internal model structure rather than relying on prompted output. We instantiate this paradigm through INSPECTOR, a probing-based framework that predicts aspect-level evaluation scores from small model representations. Experiments on reasoning benchmarks (GSM8K, MATH, GPQA) show that INSPECTOR substantially outperforms prompting-based small LMs and closely approximates full LLM judges, while offering a more efficient, reliable, and interpretable alternative for scalable evaluation.

Переосмысление LLM-как-судьи: Представление-как-судья с помощью малых языковых моделей через асимметрию семантической емкости

Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry

Аннотация

Support