ChatPaper.aiChatPaper

Récupéré par la Traduction : Pipeline Efficace pour la Traduction Automatique de Référentiels et de Jeux de Données

Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets

February 25, 2026
Auteurs: Hanna Yukhymenko, Anton Alexandrov, Martin Vechev
cs.AI

Résumé

La fiabilité de l'évaluation des modèles de langage de grande taille (LLM) multilingues est actuellement compromise par la qualité inégale des benchmarks traduits. Les ressources existantes souffrent souvent de dérive sémantique et de perte de contexte, ce qui peut conduire à des métriques de performance trompeuses. Dans ce travail, nous présentons un cadre entièrement automatisé conçu pour relever ces défis en permettant une traduction évolutive et de haute qualité des jeux de données et des benchmarks. Nous démontrons que l'adaptation des stratégies de mise à l'échelle du calcul au moment du test, spécifiquement l'Auto-amélioration Universelle (USI) et notre méthode de classement multi-tours proposée, T-RANK, permet d'obtenir des résultats de qualité nettement supérieure par rapport aux pipelines traditionnels. Notre cadre garantit que les benchmarks préservent leur structure de tâche originale et leurs nuances linguistiques lors de la localisation. Nous appliquons cette approche pour traduire des benchmarks et jeux de données populaires en huit langues d'Europe orientale et méridionale (ukrainien, bulgare, slovaque, roumain, lituanien, estonien, turc, grec). Les évaluations utilisant à la fois des métriques de référence et la méthode LLM-comme-juge montrent que nos traductions surpassent les ressources existantes, permettant une évaluation plus précise des modèles en aval. Nous publions à la fois le cadre et les benchmarks améliorés pour faciliter le développement d'une IA multilingue robuste et reproductible.
English
The reliability of multilingual Large Language Model (LLM) evaluation is currently compromised by the inconsistent quality of translated benchmarks. Existing resources often suffer from semantic drift and context loss, which can lead to misleading performance metrics. In this work, we present a fully automated framework designed to address these challenges by enabling scalable, high-quality translation of datasets and benchmarks. We demonstrate that adapting test-time compute scaling strategies, specifically Universal Self-Improvement (USI) and our proposed multi-round ranking method, T-RANK, allows for significantly higher quality outputs compared to traditional pipelines. Our framework ensures that benchmarks preserve their original task structure and linguistic nuances during localization. We apply this approach to translate popular benchmarks and datasets into eight Eastern and Southern European languages (Ukrainian, Bulgarian, Slovak, Romanian, Lithuanian, Estonian, Turkish, Greek). Evaluations using both reference-based metrics and LLM-as-a-judge show that our translations surpass existing resources, resulting in more accurate downstream model assessment. We release both the framework and the improved benchmarks to facilitate robust and reproducible multilingual AI development.
PDF393March 7, 2026