Recuperati nella Traduzione: Pipeline Efficiente per la Traduzione Automatica di Benchmark e Dataset

Abstract

L'affidabilità della valutazione dei modelli linguistici multilingue di grandi dimensioni (LLM) è attualmente compromessa dalla qualità disomogenea dei benchmark tradotti. Le risorse esistenti soffrono spesso di deriva semantica e perdita di contesto, che possono portare a metriche di performance fuorvianti. In questo lavoro, presentiamo un framework completamente automatizzato progettato per affrontare queste sfide, consentendo una traduzione scalabile e di alta qualità di dataset e benchmark. Dimostriamo che l'adattamento di strategie di scalabilità computazionale al momento del test, in particolare l'Automiglioramento Universale (USI) e il nostro metodo di classificazione multi-round proposto, T-RANK, permette di ottenere output di qualità significativamente superiore rispetto alle pipeline tradizionali. Il nostro framework garantisce che i benchmark preservino la loro struttura task originale e le sfumature linguistiche durante la localizzazione. Applichiamo questo approccio per tradurre benchmark e dataset popolari in otto lingue dell'Europa orientale e meridionale (ucraino, bulgaro, slovacco, rumeno, lituano, estone, turco, greco). Le valutazioni che utilizzano sia metriche basate su riferimento sia il giudizio di LLM come valutatore mostrano che le nostre traduzioni superano le risorse esistenti, producendo una valutazione più accurata dei modelli a valle. Rilasciamo sia il framework che i benchmark migliorati per facilitare uno sviluppo multilingue dell'IA robusto e riproducibile.

English

The reliability of multilingual Large Language Model (LLM) evaluation is currently compromised by the inconsistent quality of translated benchmarks. Existing resources often suffer from semantic drift and context loss, which can lead to misleading performance metrics. In this work, we present a fully automated framework designed to address these challenges by enabling scalable, high-quality translation of datasets and benchmarks. We demonstrate that adapting test-time compute scaling strategies, specifically Universal Self-Improvement (USI) and our proposed multi-round ranking method, T-RANK, allows for significantly higher quality outputs compared to traditional pipelines. Our framework ensures that benchmarks preserve their original task structure and linguistic nuances during localization. We apply this approach to translate popular benchmarks and datasets into eight Eastern and Southern European languages (Ukrainian, Bulgarian, Slovak, Romanian, Lithuanian, Estonian, Turkish, Greek). Evaluations using both reference-based metrics and LLM-as-a-judge show that our translations surpass existing resources, resulting in more accurate downstream model assessment. We release both the framework and the improved benchmarks to facilitate robust and reproducible multilingual AI development.

Recuperati nella Traduzione: Pipeline Efficiente per la Traduzione Automatica di Benchmark e Dataset

Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets

Abstract

Support