ChatPaper.aiChatPaper

Cross-linguale Stabilität von LLM-Juroren bei kontrollierter Generierung: Evidenz aus finno-ugrischen Sprachen

Cross-Lingual Stability of LLM Judges Under Controlled Generation: Evidence from Finno-Ugric Languages

February 2, 2026
papers.authors: Isaac Chung, Linda Freienthal
cs.AI

papers.abstract

Die cross-linguale Evaluation großer Sprachmodelle (LLMs) vereint typischerweise zwei Varianzquellen: echte Leistungsunterschiede des Modells und Messinstabilität. Wir untersuchen die Zuverlässigkeit der Evaluation, indem wir die Generierungsbedingungen konstant halten und nur die Zielsprache variieren. Anhand synthetischer Kundensupport-Dialoge, die mit identischen Parametern für Estnisch, Finnisch und Ungarisch generiert wurden, testen wir, ob automatische Metriken und LLM-as-a-Judge-Bewertungen stabile Modellrankings über diese morphologisch reichen, verwandten finno-ugrischen Sprachen hinweg erzeugen. Mit einem kleinen Satz von Annotationen estnischer Muttersprachler als Referenzpunkt stellen wir systematische Ranking-Instabilitäten fest: Oberflächenmetriken (lexikalische Diversität, Oberflächen- und semantische Ähnlichkeit) bleiben sprachübergreifend stabil, aber pragmatische Bewertungen (Kohärenz, Befolgung von Anweisungen) zeigen Rangumkehrungen und Korrelationen nahe null. Da die Generierung kontrolliert ist, spiegeln diese Inkonsistenzen wider, wie sich die Judge-Bewertung sprachabhängig unterschiedlich verhält, und nicht echte Modellunterschiede. Dieses kontrollierte Design dient als diagnostische Sonde: Evaluationsmethoden, die unter identischen Generierungsbedingungen keine Stabilität aufrechterhalten, signalisieren einen Transferfehler vor dem Einsatz. Unsere Ergebnisse legen nahe, dass Zero-Shot-Judge-Transfer für diskursebene Bewertungen in morphologisch reichen Sprachen unzuverlässig ist, was eine sprachspezifische Kalibrierung anhand gezielter menschlicher Referenzwerte erforderlich macht. Wir veröffentlichen unser kontrolliertes Generierungsprotokoll, synthetische Daten und Evaluationsframework zur Ermöglichung von Replikationen über Sprachfamilien hinweg unter https://github.com/isaac-chung/cross-lingual-stability-judges.
English
Cross-lingual evaluation of large language models (LLMs) typically conflates two sources of variance: genuine model performance differences and measurement instability. We investigate evaluation reliability by holding generation conditions constant while varying target language. Using synthetic customer-support dialogues generated with identical parameters across Estonian, Finnish, and Hungarian, we test whether automatic metrics and LLM-as-a-judge scoring produce stable model rankings across these morphologically rich, related Finno-Ugric languages. With a small set of Estonian native speaker annotations as a reference point, we find systematic ranking instabilities: surface-level metrics (lexical diversity, surface and semantic similarity) maintain cross-language stability, but pragmatic judgments (coherence, instruction-following) exhibit rank inversions and near-zero correlations. Because generation is controlled, these inconsistencies reflect how judge scoring behaves differently across languages rather than true model differences. This controlled design provides a diagnostic probe: evaluation methods that fail to maintain stability under identical generation conditions signal transfer failure before deployment. Our findings suggest that zero-shot judge transfer is unreliable for discourse-level assessment in morphologically rich languages, motivating language-specific calibration against targeted human baselines. We release our controlled generation protocol, synthetic data, and evaluation framework to enable replication across language families at https://github.com/isaac-chung/cross-lingual-stability-judges.
PDF12February 7, 2026