Stabilità cross-linguistica dei giudici LLM sotto generazione controllata: evidenze dalle lingue finno-ugriche

Abstract

La valutazione cross-linguale dei grandi modelli linguistici (LLM) confonde tipicamente due fonti di varianza: le differenze genuine nelle prestazioni del modello e l'instabilità della misurazione. Indaghiamo l'affidabilità della valutazione mantenendo costanti le condizioni di generazione mentre variamo la lingua target. Utilizzando dialoghi sintetici di supporto clienti generati con parametri identici in estone, finlandese e ungherese, testiamo se le metriche automatiche e la valutazione LLM-as-a-judge producono classifiche stabili del modello attraverso queste lingue finno-ugriche, correlate e morfologicamente ricche. Utilizzando un piccolo set di annotazioni di parlanti nativi estoni come punto di riferimento, riscontriamo instabilità sistematiche nelle classifiche: le metriche superficiali (diversità lessicale, similarità superficiale e semantica) mantengono una stabilità cross-lingua, ma i giudizi pragmatici (coerenza, aderenza alle istruzioni) mostrano inversioni di rango e correlazioni prossime allo zero. Poiché la generazione è controllata, queste incongruenze riflettono come il giudizio di valutazione si comporti diversamente attraverso le lingue, piuttosto che vere differenze del modello. Questo design controllato fornisce una sonda diagnostica: i metodi di valutazione che non riescono a mantenere la stabilità in condizioni di generazione identiche segnalano un fallimento del trasferimento prima del dispiegamento. I nostri risultati suggeriscono che il trasferimento zero-shot del giudice è inaffidabile per la valutazione a livello discorsivo nelle lingue morfologicamente ricche, motivando una calibrazione specifica per lingua rispetto a baseline umane mirate. Rilasciamo il nostro protocollo di generazione controllata, i dati sintetici e il framework di valutazione per consentire la replicazione attraverso le famiglie linguistiche all'indirizzo https://github.com/isaac-chung/cross-lingual-stability-judges.

English

Cross-lingual evaluation of large language models (LLMs) typically conflates two sources of variance: genuine model performance differences and measurement instability. We investigate evaluation reliability by holding generation conditions constant while varying target language. Using synthetic customer-support dialogues generated with identical parameters across Estonian, Finnish, and Hungarian, we test whether automatic metrics and LLM-as-a-judge scoring produce stable model rankings across these morphologically rich, related Finno-Ugric languages. With a small set of Estonian native speaker annotations as a reference point, we find systematic ranking instabilities: surface-level metrics (lexical diversity, surface and semantic similarity) maintain cross-language stability, but pragmatic judgments (coherence, instruction-following) exhibit rank inversions and near-zero correlations. Because generation is controlled, these inconsistencies reflect how judge scoring behaves differently across languages rather than true model differences. This controlled design provides a diagnostic probe: evaluation methods that fail to maintain stability under identical generation conditions signal transfer failure before deployment. Our findings suggest that zero-shot judge transfer is unreliable for discourse-level assessment in morphologically rich languages, motivating language-specific calibration against targeted human baselines. We release our controlled generation protocol, synthetic data, and evaluation framework to enable replication across language families at https://github.com/isaac-chung/cross-lingual-stability-judges.

Stabilità cross-linguistica dei giudici LLM sotto generazione controllata: evidenze dalle lingue finno-ugriche

Cross-Lingual Stability of LLM Judges Under Controlled Generation: Evidence from Finno-Ugric Languages

Abstract

Support