ChatPaper.aiChatPaper

LLMによる評価の再考:意味能力の非対称性を活用した小型言語モデルによる表現ベース評価

Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry

January 30, 2026
著者: Zhuochun Li, Yong Zhang, Ming Li, Yuelyu Ji, Yiming Zeng, Ning Cheng, Yun Zhu, Yanmeng Wang, Shaojun Wang, Jing Xiao, Daqing He
cs.AI

要旨

大規模言語モデル(LLM)は、プロンプティングを介した参照不要評価器として広く利用されているが、この「LLM-as-a-Judge」パラダイムは、コストが高く、不透明で、プロンプト設計の影響を受けやすいという問題を抱えている。本研究では、より小規模なモデルが、表層的な生成ではなく内部表現を活用することで、効率的な評価器として機能し得るかを検証する。我々は一貫した経験的パターンを発見した:生成能力が弱い小規模LMであっても、その隠れ状態には豊富な評価信号が符号化されている。この発見は、「意味的能力の非対称性仮説」を提唱する動機となった:評価には生成よりも遥かに少ない意味的能力で十分であり、中間表現に基づいて行うことが可能である。つまり、評価は必ずしも大規模生成モデルに依存する必要はなく、小規模モデルの潜在特徴を活用できることを示唆する。本知見は、「LLM-as-a-Judge」から「Representation-as-a-Judge」へ、つまりプロンプトによる出力に依存するのではなく、内部モデル構造を探る脱デコード評価戦略へのパラダイム転換を促すものである。我々はこのパラダイムを、小規模モデルの表現からアスペクトレベルの評価スコアを予測するプロービングベースのフレームワークであるINSPECTORとして具体化した。推論ベンチマーク(GSM8K、MATH、GPQA)における実験では、INSPECTORがプロンプトベースの小規模LMを大幅に上回り、完全なLLM評価器に匹敵する精度を達成しつつ、拡張可能な評価のためのより効率的で信頼性が高く解釈可能な代替手段を提供することが示された。
English
Large language models (LLMs) are widely used as reference-free evaluators via prompting, but this "LLM-as-a-Judge" paradigm is costly, opaque, and sensitive to prompt design. In this work, we investigate whether smaller models can serve as efficient evaluators by leveraging internal representations instead of surface generation. We uncover a consistent empirical pattern: small LMs, despite with weak generative ability, encode rich evaluative signals in their hidden states. This motivates us to propose the Semantic Capacity Asymmetry Hypothesis: evaluation requires significantly less semantic capacity than generation and can be grounded in intermediate representations, suggesting that evaluation does not necessarily need to rely on large-scale generative models but can instead leverage latent features from smaller ones. Our findings motivate a paradigm shift from LLM-as-a-Judge to Representation-as-a-Judge, a decoding-free evaluation strategy that probes internal model structure rather than relying on prompted output. We instantiate this paradigm through INSPECTOR, a probing-based framework that predicts aspect-level evaluation scores from small model representations. Experiments on reasoning benchmarks (GSM8K, MATH, GPQA) show that INSPECTOR substantially outperforms prompting-based small LMs and closely approximates full LLM judges, while offering a more efficient, reliable, and interpretable alternative for scalable evaluation.
PDF52March 12, 2026