Кросс-лингвальная стабильность оценок языковых моделей в условиях контролируемой генерации: данные финно-угорских языков
Cross-Lingual Stability of LLM Judges Under Controlled Generation: Evidence from Finno-Ugric Languages
February 2, 2026
Авторы: Isaac Chung, Linda Freienthal
cs.AI
Аннотация
Межъязыковая оценка больших языковых моделей (LLM) обычно объединяет два источника вариативности: подлинные различия в производительности моделей и нестабильность измерений. Мы исследуем надежность оценки, фиксируя условия генерации и варьируя целевой язык. Используя синтетические диалоги службы поддержки, сгенерированные с идентичными параметрами на эстонском, финском и венгерском языках, мы проверяем, обеспечивают ли автоматические метрики и оценка по методу LLM-as-a-judge стабильные ранжирования моделей для этих морфологически богатых родственных финно-угорских языков. Опираясь на небольшой набор аннотаций носителей эстонского языка как на точку отсчета, мы выявляем систематическую нестабильность ранжирования: поверхностные метрики (лексическое разнообразие, поверхностное и семантическое сходство) сохраняют кросс-лингвистическую стабильность, тогда как прагматические оценки (связность, следование инструкциям) демонстрируют инверсии рангов и корреляции, близкие к нулю. Поскольку генерация контролируется, эти несоответствия отражают то, как оценка судей работает по-разному в разных языках, а не истинные различия между моделями.
Данный контролируемый подход служит диагностическим инструментом: методы оценки, которые не сохраняют стабильность в идентичных условиях генерации, сигнализируют о проблеме переноса до внедрения. Наши результаты показывают, что трансфер оценки по методу zero-shot судьи ненадежен для дискурс-уровневого анализа в морфологически богатых языках, что обосновывает необходимость языково-специфичной калибровки относительно целевых человеческих бейзлайнов. Мы публикуем наш контролируемый протокол генерации, синтетические данные и框架 оценки для обеспечения воспроизводимости на других языковых семьях по адресу: https://github.com/isaac-chung/cross-lingual-stability-judges.
English
Cross-lingual evaluation of large language models (LLMs) typically conflates two sources of variance: genuine model performance differences and measurement instability. We investigate evaluation reliability by holding generation conditions constant while varying target language. Using synthetic customer-support dialogues generated with identical parameters across Estonian, Finnish, and Hungarian, we test whether automatic metrics and LLM-as-a-judge scoring produce stable model rankings across these morphologically rich, related Finno-Ugric languages. With a small set of Estonian native speaker annotations as a reference point, we find systematic ranking instabilities: surface-level metrics (lexical diversity, surface and semantic similarity) maintain cross-language stability, but pragmatic judgments (coherence, instruction-following) exhibit rank inversions and near-zero correlations. Because generation is controlled, these inconsistencies reflect how judge scoring behaves differently across languages rather than true model differences.
This controlled design provides a diagnostic probe: evaluation methods that fail to maintain stability under identical generation conditions signal transfer failure before deployment. Our findings suggest that zero-shot judge transfer is unreliable for discourse-level assessment in morphologically rich languages, motivating language-specific calibration against targeted human baselines. We release our controlled generation protocol, synthetic data, and evaluation framework to enable replication across language families at https://github.com/isaac-chung/cross-lingual-stability-judges.