Umdenken bei LLM-als-Richter: Repräsentation-als-Richter mit kleinen Sprachmodellen durch semantische Kapazitätsasymmetrie
Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry
January 30, 2026
Autoren: Zhuochun Li, Yong Zhang, Ming Li, Yuelyu Ji, Yiming Zeng, Ning Cheng, Yun Zhu, Yanmeng Wang, Shaojun Wang, Jing Xiao, Daqing He
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) werden häufig als referenzfreie Bewertungssysteme mittels Prompting eingesetzt, doch dieses "LLM-als-Richter"-Paradigma ist kostspielig, intransparent und anfällig für das Prompt-Design. In dieser Arbeit untersuchen wir, ob kleinere Modelle durch Nutzung interner Repräsentationen anstelle von Oberflächengenerierung als effiziente Bewerter dienen können. Wir decken ein konsistentes empirisches Muster auf: Kleine Sprachmodelle, trotz schwacher Generierungsfähigkeit, kodieren reichhaltige Bewertungssignale in ihren verborgenen Zuständen. Dies motiviert uns zur Formulierung der Hypothese der semantischen Kapazitätsasymmetrie: Bewertung erfordert signifikant weniger semantische Kapazität als Generierung und kann in Zwischenrepräsentationen verankert werden, was nahelegt, dass Bewertung nicht notwendigerweise auf großskalige generative Modelle angewiesen ist, sondern stattdessen latente Merkmale kleinerer Modelle nutzen kann. Unsere Ergebnisse motivieren einen Paradigmenwechsel von "LLM-als-Richter" zu "Repräsentation-als-Richter", einer dekodierungsfreien Bewertungsstrategie, die die interne Modellstruktur abtastet, anstatt sich auf gepromptete Outputs zu verlassen. Wir instanziieren dieses Paradigma durch INSPECTOR, ein auf Abtastung basierendes Framework, das Aspekt-bewertungsscores aus Repräsentationen kleiner Modelle vorhersagt. Experimente auf Reasoning-Benchmarks (GSM8K, MATH, GPQA) zeigen, dass INSPECTOR prompt-basierte kleine Sprachmodelle erheblich übertrifft und sich vollwertigen LLM-Bewertern eng annähert, während es eine effizientere, zuverlässigere und interpretierbare Alternative für skalierbare Evaluation bietet.
English
Large language models (LLMs) are widely used as reference-free evaluators via prompting, but this "LLM-as-a-Judge" paradigm is costly, opaque, and sensitive to prompt design. In this work, we investigate whether smaller models can serve as efficient evaluators by leveraging internal representations instead of surface generation. We uncover a consistent empirical pattern: small LMs, despite with weak generative ability, encode rich evaluative signals in their hidden states. This motivates us to propose the Semantic Capacity Asymmetry Hypothesis: evaluation requires significantly less semantic capacity than generation and can be grounded in intermediate representations, suggesting that evaluation does not necessarily need to rely on large-scale generative models but can instead leverage latent features from smaller ones. Our findings motivate a paradigm shift from LLM-as-a-Judge to Representation-as-a-Judge, a decoding-free evaluation strategy that probes internal model structure rather than relying on prompted output. We instantiate this paradigm through INSPECTOR, a probing-based framework that predicts aspect-level evaluation scores from small model representations. Experiments on reasoning benchmarks (GSM8K, MATH, GPQA) show that INSPECTOR substantially outperforms prompting-based small LMs and closely approximates full LLM judges, while offering a more efficient, reliable, and interpretable alternative for scalable evaluation.