LLM判定モデルのクロスリンガル安定性:制御生成下におけるフィン・ウゴル諸語からの証拠
Cross-Lingual Stability of LLM Judges Under Controlled Generation: Evidence from Finno-Ugric Languages
February 2, 2026
著者: Isaac Chung, Linda Freienthal
cs.AI
要旨
大規模言語モデル(LLM)の言語間評価では、一般的に2つの変動要因、すなわち真のモデル性能差と測定の不安定性が混同されがちである。本研究では、生成条件を固定し対象言語のみを変化させることで、評価の信頼性を検証する。エストニア語、フィンランド語、ハンガリー語という、形態的に豊かで関連性のあるフィン・ウゴル語族の言語において、同一のパラメータで生成した模擬カスタマーサポート対話を用い、自動評価指標とLLMによる評価スコアリングが、これらの言語間で安定的なモデル順位付けを生み出すかどうかを検証する。少数のエストニア語母語話者による注釈を参照点として用いた結果、体系的的な順位の不安定性が明らかになった。表面的な指標(語彙の多様性、表面的・意味的類似性)は言語間で安定性を維持するが、語用論的判断(一貫性、指示への追従性)では順位の逆転やほぼゼロに近い相関が観察された。生成条件が統制されているため、これらの不一致は真のモデル差ではなく、評価スコアリングが言語間で異なる挙動を示すことを反映している。
この統制された実験設計は診断的プローブとして機能する。同一の生成条件下で安定性を維持できない評価手法は、実用化前の段階で転移の失敗を示すシグナルとなる。我々の知見は、形態的に豊かな言語における談話レベルの評価において、ゼロショットでの評価手法の転移は信頼性が低く、対象言語に特化した人間のベースラインに基づく較正の必要性を示唆するものと言える。再現性を高めるため、統制された生成プロトコル、合成データ、評価フレームワークをhttps://github.com/isaac-chung/cross-lingual-stability-judges で公開する。
English
Cross-lingual evaluation of large language models (LLMs) typically conflates two sources of variance: genuine model performance differences and measurement instability. We investigate evaluation reliability by holding generation conditions constant while varying target language. Using synthetic customer-support dialogues generated with identical parameters across Estonian, Finnish, and Hungarian, we test whether automatic metrics and LLM-as-a-judge scoring produce stable model rankings across these morphologically rich, related Finno-Ugric languages. With a small set of Estonian native speaker annotations as a reference point, we find systematic ranking instabilities: surface-level metrics (lexical diversity, surface and semantic similarity) maintain cross-language stability, but pragmatic judgments (coherence, instruction-following) exhibit rank inversions and near-zero correlations. Because generation is controlled, these inconsistencies reflect how judge scoring behaves differently across languages rather than true model differences.
This controlled design provides a diagnostic probe: evaluation methods that fail to maintain stability under identical generation conditions signal transfer failure before deployment. Our findings suggest that zero-shot judge transfer is unreliable for discourse-level assessment in morphologically rich languages, motivating language-specific calibration against targeted human baselines. We release our controlled generation protocol, synthetic data, and evaluation framework to enable replication across language families at https://github.com/isaac-chung/cross-lingual-stability-judges.