ChatPaper.aiChatPaper

翻訳による回収:ベンチマークとデータセットの自動翻訳のための効率的なパイプライン

Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets

February 25, 2026
著者: Hanna Yukhymenko, Anton Alexandrov, Martin Vechev
cs.AI

要旨

多言語大規模言語モデル(LLM)の評価の信頼性は、現在、翻訳されたベンチマークの品質不安定によって損なわれている。既存のリソースは、意味のずれや文脈の喪失に悩まされることが多く、誤解を招く性能指標につながりかねない。本研究では、データセットとベンチマークの拡張性の高い高品質な翻訳を実現する、完全自動化フレームワークを提案する。テスト時計算量スケーリング戦略、特にUniversal Self-Improvement(USI)および我々が提案する多段階ランキング手法T-RANKを適用することで、従来のパイプラインと比較して大幅に高品質な出力が得られることを実証する。本フレームワークは、ベンチマークがローカライズ過程において元のタスク構造と言語的ニュアンスを保持することを保証する。本手法を応用し、広く利用されているベンチマークとデータセットを8つの東・南ヨーロッパ言語(ウクライナ語、ブルガリア語、スロバキア語、ルーマニア語、リトアニア語、エストニア語、トルコ語、ギリシャ語)に翻訳した。参照ベース指標とLLM-as-a-judgeの両方を用いた評価により、我々の翻訳が既存リソースを凌駕し、下流モデル評価の精度向上につながることを示す。堅牢で再現性のある多言語AI開発を促進するため、フレームワークと改良されたベンチマークを公開する。
English
The reliability of multilingual Large Language Model (LLM) evaluation is currently compromised by the inconsistent quality of translated benchmarks. Existing resources often suffer from semantic drift and context loss, which can lead to misleading performance metrics. In this work, we present a fully automated framework designed to address these challenges by enabling scalable, high-quality translation of datasets and benchmarks. We demonstrate that adapting test-time compute scaling strategies, specifically Universal Self-Improvement (USI) and our proposed multi-round ranking method, T-RANK, allows for significantly higher quality outputs compared to traditional pipelines. Our framework ensures that benchmarks preserve their original task structure and linguistic nuances during localization. We apply this approach to translate popular benchmarks and datasets into eight Eastern and Southern European languages (Ukrainian, Bulgarian, Slovak, Romanian, Lithuanian, Estonian, Turkish, Greek). Evaluations using both reference-based metrics and LLM-as-a-judge show that our translations surpass existing resources, resulting in more accurate downstream model assessment. We release both the framework and the improved benchmarks to facilitate robust and reproducible multilingual AI development.
PDF393March 7, 2026