Estabilidade Translinguística de Juízes de LLM sob Geração Controlada: Evidências de Línguas Fino-Úgricas

Resumo

A avaliação cross-lingual de grandes modelos de linguagem (LLMs) tipicamente confunde duas fontes de variância: diferenças genuínas de desempenho do modelo e instabilidade da medição. Investigamos a confiabilidade da avaliação mantendo constantes as condições de geração enquanto variamos o idioma de destino. Utilizando diálogos sintéticos de suporte ao cliente gerados com parâmetros idênticos em Estoniano, Finlandês e Húngaro, testamos se as métricas automáticas e a pontuação por LLM-como-juiz produzem rankings de modelo estáveis nestas línguas fino-úgricas, morfologicamente ricas e aparentadas. Com um pequeno conjunto de anotações de falantes nativos de Estoniano como ponto de referência, encontramos instabilidades sistemáticas de ranking: métricas de superfície (diversidade lexical, similaridade superficial e semântica) mantêm estabilidade cross-lingual, mas julgamentos pragmáticos (coerência, seguimento de instruções) exibem inversões de ranking e correlações próximas de zero. Como a geração é controlada, estas inconsistências refletem como a pontuação do juiz se comporta de forma diferente entre os idiomas, e não verdadeiras diferenças do modelo. Este desenho controlado fornece uma sonda diagnóstica: métodos de avaliação que falham em manter a estabilidade sob condições idênticas de geração sinalizam falha de transferência antes da implantação. Os nossos resultados sugerem que a transferência *zero-shot* de juízes não é confiável para avaliação a nível discursivo em línguas morfologicamente ricas, motivando uma calibração específica por idioma com base em linhas de base humanas direcionadas. Disponibilizamos o nosso protocolo de geração controlada, dados sintéticos e estrutura de avaliação para permitir a replicação entre famílias linguísticas em https://github.com/isaac-chung/cross-lingual-stability-judges.

English

Cross-lingual evaluation of large language models (LLMs) typically conflates two sources of variance: genuine model performance differences and measurement instability. We investigate evaluation reliability by holding generation conditions constant while varying target language. Using synthetic customer-support dialogues generated with identical parameters across Estonian, Finnish, and Hungarian, we test whether automatic metrics and LLM-as-a-judge scoring produce stable model rankings across these morphologically rich, related Finno-Ugric languages. With a small set of Estonian native speaker annotations as a reference point, we find systematic ranking instabilities: surface-level metrics (lexical diversity, surface and semantic similarity) maintain cross-language stability, but pragmatic judgments (coherence, instruction-following) exhibit rank inversions and near-zero correlations. Because generation is controlled, these inconsistencies reflect how judge scoring behaves differently across languages rather than true model differences. This controlled design provides a diagnostic probe: evaluation methods that fail to maintain stability under identical generation conditions signal transfer failure before deployment. Our findings suggest that zero-shot judge transfer is unreliable for discourse-level assessment in morphologically rich languages, motivating language-specific calibration against targeted human baselines. We release our controlled generation protocol, synthetic data, and evaluation framework to enable replication across language families at https://github.com/isaac-chung/cross-lingual-stability-judges.

Estabilidade Translinguística de Juízes de LLM sob Geração Controlada: Evidências de Línguas Fino-Úgricas

Cross-Lingual Stability of LLM Judges Under Controlled Generation: Evidence from Finno-Ugric Languages

Resumo

Support