ChatPaper.aiChatPaper

통제된 생성 조건에서 LLM 평가자의 교차 언어적 안정성: 핀우그르어군 언어를 중심으로

Cross-Lingual Stability of LLM Judges Under Controlled Generation: Evidence from Finno-Ugric Languages

February 2, 2026
저자: Isaac Chung, Linda Freienthal
cs.AI

초록

대규모 언어 모델(LLM)의 교차 언어 평가는 일반적으로 두 가지 변동 요인, 즉 진정한 모델 성능 차이와 측정 불안정성을 혼동합니다. 본 연구는 생성 조건을 일정하게 유지하면서 목표 언어를 변화시킴으로써 평가 신뢰성을 조사합니다. 에스토니아어, 핀란드어, 헝가리어에 걸쳐 동일한 매개변수로 생성된 합성 고객 지원 대화를 사용하여, 형태론적으로 풍부하고 서로 관련된 핀우그리아어군 언어들 간에 자동 평가 지표와 LLM-as-a-judge 채점이 안정적인 모델 순위를 생성하는지 테스트합니다. 소규모 에스토니아어 원어민 주석 데이터를 기준점으로 삼아 분석한 결과, 체계적인 순위 불안정성이 발견되었습니다. 표층적 지표(어휘 다양성, 표층 및 의미적 유사성)는 교차 언어적 안정성을 유지하지만, 화용론적 판단(일관성, 지시 따르기)에서는 순위 역전 및 거의 0에 가까운 상관관계가 나타났습니다. 생성 조건이 통제되었기 때문에 이러한 불일치는 실제 모델 차이가 아닌, 평가자 채점이 언어마다 다르게 작동하는 방식을 반영합니다. 이 통제된 설계는 진단 프로브 역할을 합니다. 동일한 생성 조건에서 안정성을 유지하지 못하는 평가 방법은 실제 배포 전에 전달 실패를 나타내는 신호입니다. 우리의 연구 결과는 형태론적으로 풍부한 언어에서 담화 수준 평가를 위한 제로샷 평가자 전달이 신뢰할 수 없음을 시사하며, 특정 언어에 맞춘 인간 기준점을 통한 언어별 보정의 필요성을 제기합니다. 우리는 통제된 생성 프로토콜, 합성 데이터, 평가 프레임워크를 https://github.com/isaac-chung/cross-lingual-stability-judges 에 공개하여 다양한 어족에 걸친 재현을 가능하게 합니다.
English
Cross-lingual evaluation of large language models (LLMs) typically conflates two sources of variance: genuine model performance differences and measurement instability. We investigate evaluation reliability by holding generation conditions constant while varying target language. Using synthetic customer-support dialogues generated with identical parameters across Estonian, Finnish, and Hungarian, we test whether automatic metrics and LLM-as-a-judge scoring produce stable model rankings across these morphologically rich, related Finno-Ugric languages. With a small set of Estonian native speaker annotations as a reference point, we find systematic ranking instabilities: surface-level metrics (lexical diversity, surface and semantic similarity) maintain cross-language stability, but pragmatic judgments (coherence, instruction-following) exhibit rank inversions and near-zero correlations. Because generation is controlled, these inconsistencies reflect how judge scoring behaves differently across languages rather than true model differences. This controlled design provides a diagnostic probe: evaluation methods that fail to maintain stability under identical generation conditions signal transfer failure before deployment. Our findings suggest that zero-shot judge transfer is unreliable for discourse-level assessment in morphologically rich languages, motivating language-specific calibration against targeted human baselines. We release our controlled generation protocol, synthetic data, and evaluation framework to enable replication across language families at https://github.com/isaac-chung/cross-lingual-stability-judges.
PDF12February 7, 2026