Repenser l'évaluateur LLM : L'évaluateur par représentation avec les petits modèles de langage via l'asymétrie de capacité sémantique
Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry
January 30, 2026
Auteurs: Zhuochun Li, Yong Zhang, Ming Li, Yuelyu Ji, Yiming Zeng, Ning Cheng, Yun Zhu, Yanmeng Wang, Shaojun Wang, Jing Xiao, Daqing He
cs.AI
Résumé
Les grands modèles de langage (LLM) sont largement utilisés comme évaluateurs sans référence par simple prompting, mais ce paradigme du "LLM-en-tant-que-juge" est coûteux, opaque et sensible à la conception des prompts. Dans ce travail, nous étudions si des modèles plus petits peuvent servir d'évaluateurs efficaces en exploitant leurs représentations internes plutôt que la génération de texte de surface. Nous mettons en évidence un schéma empirique constant : les petits modèles de langage, bien que dotés d'une faible capacité générative, encodent des signaux évaluatifs riches dans leurs états cachés. Cela nous motive à proposer l'Hypothèse d'Asymétrie de Capacité Sémantique : l'évaluation requiert une capacité sémantique significativement moindre que la génération et peut être ancrée dans des représentations intermédiaires, suggérant que l'évaluation n'a pas nécessairement besoin de s'appuyer sur de grands modèles génératifs mais peut plutôt exploiter les caractéristiques latentes de modèles plus petits. Nos résultats motivent un changement de paradigme, passant du "LLM-en-tant-que-juge" à la "Représentation-en-tant-que-juge", une stratégie d'évaluation sans déco-dage qui sonde la structure interne du modèle plutôt que de s'appuyer sur une sortie générée par prompt. Nous concrétisons ce paradigme via INSPECTOR, un framework basé sur le probing qui prédit les scores d'évaluation par aspect à partir des représentations de petits modèles. Les expériences sur des benchmarks de raisonnement (GSM8K, MATH, GPQA) montrent qu'INSPECTOR surpasse substantiellement les petits LLM basés sur le prompting et se rapproche des performances des juges LLM complets, tout en offrant une alternative plus efficace, fiable et interprétable pour une évaluation scalable.
English
Large language models (LLMs) are widely used as reference-free evaluators via prompting, but this "LLM-as-a-Judge" paradigm is costly, opaque, and sensitive to prompt design. In this work, we investigate whether smaller models can serve as efficient evaluators by leveraging internal representations instead of surface generation. We uncover a consistent empirical pattern: small LMs, despite with weak generative ability, encode rich evaluative signals in their hidden states. This motivates us to propose the Semantic Capacity Asymmetry Hypothesis: evaluation requires significantly less semantic capacity than generation and can be grounded in intermediate representations, suggesting that evaluation does not necessarily need to rely on large-scale generative models but can instead leverage latent features from smaller ones. Our findings motivate a paradigm shift from LLM-as-a-Judge to Representation-as-a-Judge, a decoding-free evaluation strategy that probes internal model structure rather than relying on prompted output. We instantiate this paradigm through INSPECTOR, a probing-based framework that predicts aspect-level evaluation scores from small model representations. Experiments on reasoning benchmarks (GSM8K, MATH, GPQA) show that INSPECTOR substantially outperforms prompting-based small LMs and closely approximates full LLM judges, while offering a more efficient, reliable, and interpretable alternative for scalable evaluation.