Heroverdenken van LLM-als-rechter: Representatie-als-rechter met Kleine Taalmodellen via Semantische Capaciteitsasymmetrie
Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry
January 30, 2026
Auteurs: Zhuochun Li, Yong Zhang, Ming Li, Yuelyu Ji, Yiming Zeng, Ning Cheng, Yun Zhu, Yanmeng Wang, Shaojun Wang, Jing Xiao, Daqing He
cs.AI
Samenvatting
Grote taalmmodellen (LLM's) worden veelvuldig gebruikt als referentievrije evaluatoren via prompting, maar dit "LLM-as-a-Judge"-paradigma is kostbaar, ondoorzichtig en gevoelig voor promptontwerp. In dit werk onderzoeken we of kleinere modellen kunnen dienen als efficiënte evaluatoren door gebruik te maken van interne representaties in plaats van oppervlakkige generatie. We ontdekken een consistent empirisch patroon: kleine LM's, ondanks hun zwakke generatieve vermogen, coderen rijke evaluatieve signalen in hun verborgen toestanden. Dit motiveert ons om de Hypothese van Semantische Capaciteitsasymmetrie voor te stellen: evaluatie vereist aanzienlijk minder semantische capaciteit dan generatie en kan worden verankerd in intermediaire representaties, wat suggereert dat evaluatie niet per se hoeft te steunen op grootschalige generatieve modellen, maar in plaats daarvan latente kenmerken van kleinere modellen kan benutten. Onze bevindingen motiveren een paradigmaverschuiving van LLM-as-a-Judge naar Representation-as-a-Judge, een decodeervrije evaluatiestrategie die de interne modelstructuur onderzoekt in plaats van te vertrouwen op geprompte output. We concretiseren dit paradigma via INSPECTOR, een op probing gebaseerd raamwerk dat aspectniveau-evaluatiescores voorspelt uit kleine modelrepresentaties. Experimenten op redeneerbenchmarks (GSM8K, MATH, GPQA) tonen aan dat INSPECTOR op prompting gebaseerde kleine LM's aanzienlijk overtreft en volwaardige LLM-rechters dicht benadert, terwijl het een efficiënter, betrouwbaarder en interpreteerbaarder alternatief biedt voor schaalbare evaluatie.
English
Large language models (LLMs) are widely used as reference-free evaluators via prompting, but this "LLM-as-a-Judge" paradigm is costly, opaque, and sensitive to prompt design. In this work, we investigate whether smaller models can serve as efficient evaluators by leveraging internal representations instead of surface generation. We uncover a consistent empirical pattern: small LMs, despite with weak generative ability, encode rich evaluative signals in their hidden states. This motivates us to propose the Semantic Capacity Asymmetry Hypothesis: evaluation requires significantly less semantic capacity than generation and can be grounded in intermediate representations, suggesting that evaluation does not necessarily need to rely on large-scale generative models but can instead leverage latent features from smaller ones. Our findings motivate a paradigm shift from LLM-as-a-Judge to Representation-as-a-Judge, a decoding-free evaluation strategy that probes internal model structure rather than relying on prompted output. We instantiate this paradigm through INSPECTOR, a probing-based framework that predicts aspect-level evaluation scores from small model representations. Experiments on reasoning benchmarks (GSM8K, MATH, GPQA) show that INSPECTOR substantially outperforms prompting-based small LMs and closely approximates full LLM judges, while offering a more efficient, reliable, and interpretable alternative for scalable evaluation.