Ripensare l'LLM come Giudice: Rappresentazione come Giudice con Piccoli Modelli Linguistici tramite Asimmetria della Capacità Semantica

Abstract

I grandi modelli linguistici (LLM) sono ampiamente utilizzati come valutatori senza riferimento tramite prompt, ma questo paradigma "LLM come giudice" è costoso, opaco e sensibile alla progettazione del prompt. In questo lavoro, indaghiamo se modelli più piccoli possano fungere da valutatori efficienti sfruttando le rappresentazioni interne anziché la generazione superficiale. Scopriamo un pattern empirico coerente: i piccoli LM, nonostante la debole capacità generativa, codificano segnali valutativi ricchi nei loro stati nascosti. Questo ci motiva a proporre l'Ipotesi dell'Asimmetria della Capacità Semantica: la valutazione richiede una capacità semantica significativamente inferiore rispetto alla generazione e può essere ancorata in rappresentazioni intermedie, suggerendo che la valutazione non necessita necessariamente di fare affidamento su modelli generativi su larga scala, ma può invece sfruttare caratteristiche latenti da modelli più piccoli. Le nostre scoperte motivano un cambiamento di paradigma da "LLM come giudice" a "Rappresentazione come giudice", una strategia di valutazione senza decodifica che analizza la struttura interna del modello anziché basarsi sull'output promptato. Istanziamo questo paradigma attraverso INSPECTOR, un framework basato sul probing che prevede punteggi di valutazione a livello di aspetto dalle rappresentazioni di piccoli modelli. Esperimenti su benchmark di ragionamento (GSM8K, MATH, GPQA) mostrano che INSPECTOR supera sostanzialmente i piccoli LM basati su prompt e si avvicina molto ai giudici LLM completi, offrendo al contempo un'alternativa più efficiente, affidabile e interpretabile per una valutazione scalabile.

English

Large language models (LLMs) are widely used as reference-free evaluators via prompting, but this "LLM-as-a-Judge" paradigm is costly, opaque, and sensitive to prompt design. In this work, we investigate whether smaller models can serve as efficient evaluators by leveraging internal representations instead of surface generation. We uncover a consistent empirical pattern: small LMs, despite with weak generative ability, encode rich evaluative signals in their hidden states. This motivates us to propose the Semantic Capacity Asymmetry Hypothesis: evaluation requires significantly less semantic capacity than generation and can be grounded in intermediate representations, suggesting that evaluation does not necessarily need to rely on large-scale generative models but can instead leverage latent features from smaller ones. Our findings motivate a paradigm shift from LLM-as-a-Judge to Representation-as-a-Judge, a decoding-free evaluation strategy that probes internal model structure rather than relying on prompted output. We instantiate this paradigm through INSPECTOR, a probing-based framework that predicts aspect-level evaluation scores from small model representations. Experiments on reasoning benchmarks (GSM8K, MATH, GPQA) show that INSPECTOR substantially outperforms prompting-based small LMs and closely approximates full LLM judges, while offering a more efficient, reliable, and interpretable alternative for scalable evaluation.

Ripensare l'LLM come Giudice: Rappresentazione come Giudice con Piccoli Modelli Linguistici tramite Asimmetria della Capacità Semantica

Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry

Abstract

Support