ChatPaper.aiChatPaper

Estabilidad Translingüística de los Evaluadores LLM bajo Generación Controlada: Evidencia desde las Lenguas Urálicas

Cross-Lingual Stability of LLM Judges Under Controlled Generation: Evidence from Finno-Ugric Languages

February 2, 2026
Autores: Isaac Chung, Linda Freienthal
cs.AI

Resumen

La evaluación multilingüe de los grandes modelos de lenguaje (LLM) suele confundir dos fuentes de varianza: las diferencias genuinas en el rendimiento del modelo y la inestabilidad de la medición. Investigamos la fiabilidad de la evaluación manteniendo constantes las condiciones de generación mientras variamos el idioma objetivo. Utilizando diálogos sintéticos de atención al cliente generados con parámetros idénticos en estonio, finés y húngaro, evaluamos si las métricas automáticas y la puntuación mediante LLM-como-juez producen clasificaciones estables de modelos en estas lenguas fino-ugrias, emparentadas y morfológicamente ricas. Tomando como referencia un pequeño conjunto de anotaciones de hablantes nativos de estonio, encontramos inestabilidades sistemáticas en las clasificaciones: las métricas superficiales (diversidad léxica, similitud superficial y semántica) mantienen estabilidad entre idiomas, pero los juicios pragmáticos (coherencia, seguimiento de instrucciones) exhiben inversiones de rango y correlaciones cercanas a cero. Dado que la generación está controlada, estas inconsistencias reflejan cómo la puntuación del juez se comporta de manera diferente entre idiomas, en lugar de verdaderas diferencias del modelo. Este diseño controlado proporciona una sonda diagnóstica: los métodos de evaluación que no mantienen la estabilidad bajo condiciones idénticas de generación señalan un fallo de transferencia antes del despliegue. Nuestros hallazgos sugieren que la transferencia *zero-shot* del juez es poco fiable para la evaluación a nivel discursivo en lenguas morfológicamente ricas, lo que motiva una calibración específica por idioma utilizando líneas de base humanas específicas. Publicamos nuestro protocolo de generación controlada, los datos sintéticos y el marco de evaluación para permitir la replicación en distintas familias lingüísticas en https://github.com/isaac-chung/cross-lingual-stability-judges.
English
Cross-lingual evaluation of large language models (LLMs) typically conflates two sources of variance: genuine model performance differences and measurement instability. We investigate evaluation reliability by holding generation conditions constant while varying target language. Using synthetic customer-support dialogues generated with identical parameters across Estonian, Finnish, and Hungarian, we test whether automatic metrics and LLM-as-a-judge scoring produce stable model rankings across these morphologically rich, related Finno-Ugric languages. With a small set of Estonian native speaker annotations as a reference point, we find systematic ranking instabilities: surface-level metrics (lexical diversity, surface and semantic similarity) maintain cross-language stability, but pragmatic judgments (coherence, instruction-following) exhibit rank inversions and near-zero correlations. Because generation is controlled, these inconsistencies reflect how judge scoring behaves differently across languages rather than true model differences. This controlled design provides a diagnostic probe: evaluation methods that fail to maintain stability under identical generation conditions signal transfer failure before deployment. Our findings suggest that zero-shot judge transfer is unreliable for discourse-level assessment in morphologically rich languages, motivating language-specific calibration against targeted human baselines. We release our controlled generation protocol, synthetic data, and evaluation framework to enable replication across language families at https://github.com/isaac-chung/cross-lingual-stability-judges.
PDF12February 7, 2026