Kruislinguale Stabiliteit van LLM-beoordelaars onder Gecontroleerde Generatie: Bewijs uit Fins-Oegrische Talen

Samenvatting

Cross-linguale evaluatie van grote taalmodellen (LLM's) verwart doorgaans twee bronnen van variantie: echte verschillen in modelprestaties en meetonzekerheid. Wij onderzoeken de betrouwbaarheid van evaluatie door de generatiecondities constant te houden en alleen de doeltaal te variëren. Met behulp van synthetische klantondersteuningsdialogen, gegenereerd met identieke parameters voor het Estisch, Fins en Hongaars, testen we of automatische metrieken en LLM-as-a-judge-beoordelingen stabiele modelrangschikkingen opleveren voor deze morfologisch rijke, verwante Fins-Oegrische talen. Met een kleine set annotaties van moedertaalsprekers Estisch als referentiepunt constateren we systematische rangschikkingsinstabiliteiten: oppervlakkige metrieken (lexicale diversiteit, oppervlakte- en semantische gelijkenis) behouden cross-linguale stabiliteit, maar pragmatische beoordelingen (samenhang, instructieopvolging) vertonen ranginversies en correlaties die bijna nul zijn. Omdat de generatie gecontroleerd is, weerspiegelen deze inconsistenties hoe de beoordelaarsscoring zich verschillend gedraagt tussen talen, in plaats van echte modelverschillen. Dit gecontroleerde ontwerp biedt een diagnostische test: evaluatiemethoden die geen stabiliteit behouden onder identieke generatiecondities, signaleren een transferfaling vóór implementatie. Onze bevindingen suggereren dat zero-shot judge-transfer onbetrouwbaar is voor beoordeling op discoursniveau in morfologisch rijke talen, wat pleit voor taalspecifieke kalibratie tegenover gerichte menselijke ijkpunten. Wij maken ons gecontroleerde generatieprotocol, synthetische data en evaluatieraamwerk vrij om replicatie over taalfamilies heen mogelijk te maken op https://github.com/isaac-chung/cross-lingual-stability-judges.

English

Cross-lingual evaluation of large language models (LLMs) typically conflates two sources of variance: genuine model performance differences and measurement instability. We investigate evaluation reliability by holding generation conditions constant while varying target language. Using synthetic customer-support dialogues generated with identical parameters across Estonian, Finnish, and Hungarian, we test whether automatic metrics and LLM-as-a-judge scoring produce stable model rankings across these morphologically rich, related Finno-Ugric languages. With a small set of Estonian native speaker annotations as a reference point, we find systematic ranking instabilities: surface-level metrics (lexical diversity, surface and semantic similarity) maintain cross-language stability, but pragmatic judgments (coherence, instruction-following) exhibit rank inversions and near-zero correlations. Because generation is controlled, these inconsistencies reflect how judge scoring behaves differently across languages rather than true model differences. This controlled design provides a diagnostic probe: evaluation methods that fail to maintain stability under identical generation conditions signal transfer failure before deployment. Our findings suggest that zero-shot judge transfer is unreliable for discourse-level assessment in morphologically rich languages, motivating language-specific calibration against targeted human baselines. We release our controlled generation protocol, synthetic data, and evaluation framework to enable replication across language families at https://github.com/isaac-chung/cross-lingual-stability-judges.

Kruislinguale Stabiliteit van LLM-beoordelaars onder Gecontroleerde Generatie: Bewijs uit Fins-Oegrische Talen

Cross-Lingual Stability of LLM Judges Under Controlled Generation: Evidence from Finno-Ugric Languages

Samenvatting

Support