Repensando o LLM como Juiz: Representação como Juiz com Pequenos Modelos de Linguagem via Assimetria de Capacidade Semântica

Resumo

Os grandes modelos de linguagem (LLMs) são amplamente utilizados como avaliadores sem referência por meio de *prompting*, mas este paradigma de "LLM-como-juiz" é dispendioso, opaco e sensível ao design do *prompt*. Neste trabalho, investigamos se modelos menores podem servir como avaliadores eficientes, aproveitando representações internas em vez de geração superficial. Descobrimos um padrão empírico consistente: pequenos modelos de linguagem, apesar de possuírem capacidade gerativa fraca, codificam sinais avaliativos ricos em seus estados ocultos. Isso nos motiva a propor a Hipótese da Assimetria de Capacidade Semântica: a avaliação requer significativamente menos capacidade semântica do que a geração e pode ser fundamentada em representações intermediárias, sugerindo que a avaliação não precisa necessariamente depender de modelos generativos de grande escala, mas pode, em vez disso, alavancar características latentes de modelos menores. Nossas descobertas motivam uma mudança de paradigma de LLM-como-juiz para Representação-como-juiz, uma estratégia de avaliação livre de decodificação que investiga a estrutura interna do modelo em vez de depender da saída solicitada por *prompt*. Instanciamos este paradigma por meio do INSPECTOR, uma estrutura baseada em *probing* que prevê pontuações de avaliação em nível de aspecto a partir de representações de modelos pequenos. Experimentos em benchmarks de raciocínio (GSM8K, MATH, GPQA) mostram que o INSPECTOR supera substancialmente pequenos LLMs baseados em *prompting* e aproxima-se estreitamente dos juízes LLM completos, ao mesmo tempo que oferece uma alternativa mais eficiente, confiável e interpretável para avaliação escalável.

English

Large language models (LLMs) are widely used as reference-free evaluators via prompting, but this "LLM-as-a-Judge" paradigm is costly, opaque, and sensitive to prompt design. In this work, we investigate whether smaller models can serve as efficient evaluators by leveraging internal representations instead of surface generation. We uncover a consistent empirical pattern: small LMs, despite with weak generative ability, encode rich evaluative signals in their hidden states. This motivates us to propose the Semantic Capacity Asymmetry Hypothesis: evaluation requires significantly less semantic capacity than generation and can be grounded in intermediate representations, suggesting that evaluation does not necessarily need to rely on large-scale generative models but can instead leverage latent features from smaller ones. Our findings motivate a paradigm shift from LLM-as-a-Judge to Representation-as-a-Judge, a decoding-free evaluation strategy that probes internal model structure rather than relying on prompted output. We instantiate this paradigm through INSPECTOR, a probing-based framework that predicts aspect-level evaluation scores from small model representations. Experiments on reasoning benchmarks (GSM8K, MATH, GPQA) show that INSPECTOR substantially outperforms prompting-based small LMs and closely approximates full LLM judges, while offering a more efficient, reliable, and interpretable alternative for scalable evaluation.

Repensando o LLM como Juiz: Representação como Juiz com Pequenos Modelos de Linguagem via Assimetria de Capacidade Semântica

Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry

Resumo

Support