ChatPaper.aiChatPaper

Stabilité translinguistique des évaluateurs LLM sous génération contrôlée : preuves des langues finno-ougriennes

Cross-Lingual Stability of LLM Judges Under Controlled Generation: Evidence from Finno-Ugric Languages

February 2, 2026
papers.authors: Isaac Chung, Linda Freienthal
cs.AI

papers.abstract

L'évaluation multilingue des grands modèles de langage (LLM) confond généralement deux sources de variance : les différences de performance réelle des modèles et l'instabilité des mesures. Nous étudions la fiabilité de l'évaluation en maintenant constantes les conditions de génération tout en faisant varier la langue cible. En utilisant des dialogues de support client synthétiques générés avec des paramètres identiques en estonien, finnois et hongrois, nous testons si les métriques automatiques et l'évaluation par LLM-en-tant-que-juge produisent des classements de modèles stables à travers ces langues finno-ougriennes apparentées et morphologiquement riches. En nous appuyant sur un petit ensemble d'annotations de locuteurs natifs estoniens comme point de référence, nous constatons des instabilités systématiques de classement : les métriques de surface (diversité lexicale, similarité de surface et sémantique) maintiennent une stabilité translinguistique, mais les jugements pragmatiques (cohérence, respect des instructions) présentent des inversions de classement et des corrélations quasi nulles. La génération étant contrôlée, ces incohérences reflètent le fait que le jugement par évaluation se comporte différemment selon les langues, plutôt que de véritables différences entre modèles. Cette conception contrôlée fournit une sonde diagnostique : les méthodes d'évaluation qui ne parviennent pas à maintenir la stabilité dans des conditions de génération identiques signalent un échec du transfert avant le déploiement. Nos résultats suggèrent que le transfert zero-shot d'un juge est peu fiable pour l'évaluation au niveau du discours dans les langues à morphologie riche, ce qui plaide en faveur d'un étalonnage spécifique à chaque langue par rapport à des bases de référence humaines ciblées. Nous publions notre protocole de génération contrôlée, nos données synthétiques et notre cadre d'évaluation pour permettre la reproduction à travers les familles de langues à l'adresse https://github.com/isaac-chung/cross-lingual-stability-judges.
English
Cross-lingual evaluation of large language models (LLMs) typically conflates two sources of variance: genuine model performance differences and measurement instability. We investigate evaluation reliability by holding generation conditions constant while varying target language. Using synthetic customer-support dialogues generated with identical parameters across Estonian, Finnish, and Hungarian, we test whether automatic metrics and LLM-as-a-judge scoring produce stable model rankings across these morphologically rich, related Finno-Ugric languages. With a small set of Estonian native speaker annotations as a reference point, we find systematic ranking instabilities: surface-level metrics (lexical diversity, surface and semantic similarity) maintain cross-language stability, but pragmatic judgments (coherence, instruction-following) exhibit rank inversions and near-zero correlations. Because generation is controlled, these inconsistencies reflect how judge scoring behaves differently across languages rather than true model differences. This controlled design provides a diagnostic probe: evaluation methods that fail to maintain stability under identical generation conditions signal transfer failure before deployment. Our findings suggest that zero-shot judge transfer is unreliable for discourse-level assessment in morphologically rich languages, motivating language-specific calibration against targeted human baselines. We release our controlled generation protocol, synthetic data, and evaluation framework to enable replication across language families at https://github.com/isaac-chung/cross-lingual-stability-judges.
PDF12February 7, 2026