Replanteando el LLM-como-Juez: Representación-como-Juez con Modelos de Lenguaje Pequeños mediante Asimetría de Capacidad Semántica

Resumen

Los modelos de lenguaje grandes (LLM) se utilizan ampliamente como evaluadores sin referencia mediante *prompting*, pero este paradigma de "LLM como juez" es costoso, opaco y sensible al diseño de los *prompts*. En este trabajo, investigamos si los modelos más pequeños pueden servir como evaluadores eficientes aprovechando sus representaciones internas en lugar de la generación superficial. Descubrimos un patrón empírico consistente: los LM pequeños, a pesar de su débil capacidad generativa, codifican señales evaluativas ricas en sus estados ocultos. Esto nos motiva a proponer la Hipótesis de la Asimetría de la Capacidad Semántica: la evaluación requiere significativamente menos capacidad semántica que la generación y puede basarse en representaciones intermedias, lo que sugiere que la evaluación no necesita necesariamente depender de modelos generativos a gran escala, sino que puede aprovechar las características latentes de modelos más pequeños. Nuestros hallazgos motivan un cambio de paradigma, de "LLM como juez" a "Representación como juez", una estrategia de evaluación libre de decodificación que sondea la estructura interna del modelo en lugar de depender de la salida generada por *prompts*. Instanciamos este paradigma a través de INSPECTOR, un marco basado en *probing* que predice puntuaciones de evaluación a nivel de aspecto a partir de las representaciones de modelos pequeños. Los experimentos en benchmarks de razonamiento (GSM8K, MATH, GPQA) muestran que INSPECTOR supera sustancialmente a los LM pequeños basados en *prompting* y se aproxima estrechamente a los jueces LLM completos, al tiempo que ofrece una alternativa más eficiente, fiable e interpretable para la evaluación escalable.

English

Large language models (LLMs) are widely used as reference-free evaluators via prompting, but this "LLM-as-a-Judge" paradigm is costly, opaque, and sensitive to prompt design. In this work, we investigate whether smaller models can serve as efficient evaluators by leveraging internal representations instead of surface generation. We uncover a consistent empirical pattern: small LMs, despite with weak generative ability, encode rich evaluative signals in their hidden states. This motivates us to propose the Semantic Capacity Asymmetry Hypothesis: evaluation requires significantly less semantic capacity than generation and can be grounded in intermediate representations, suggesting that evaluation does not necessarily need to rely on large-scale generative models but can instead leverage latent features from smaller ones. Our findings motivate a paradigm shift from LLM-as-a-Judge to Representation-as-a-Judge, a decoding-free evaluation strategy that probes internal model structure rather than relying on prompted output. We instantiate this paradigm through INSPECTOR, a probing-based framework that predicts aspect-level evaluation scores from small model representations. Experiments on reasoning benchmarks (GSM8K, MATH, GPQA) show that INSPECTOR substantially outperforms prompting-based small LMs and closely approximates full LLM judges, while offering a more efficient, reliable, and interpretable alternative for scalable evaluation.