ChatPaper.aiChatPaper

Hersteld in Vertaling: Efficiënte Pijplijn voor Geautomatiseerde Vertaling van Benchmarks en Datasets

Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets

February 25, 2026
Auteurs: Hanna Yukhymenko, Anton Alexandrov, Martin Vechev
cs.AI

Samenvatting

De betrouwbaarheid van de evaluatie van meertalige Large Language Models (LLM's) wordt momenteel aangetast door de inconsistente kwaliteit van vertaalde benchmarks. Bestaande bronnen hebben vaak last van semantische verschuiving en contextverlies, wat kan leiden tot misleidende prestatiemetingen. In dit werk presenteren we een volledig geautomatiseerd raamwerk dat ontworpen is om deze problemen aan te pakken door schaalbare, hoogwaardige vertaling van datasets en benchmarks mogelijk te maken. We tonen aan dat het aanpassen van rekenstrategieën tijdens het testen, specifiek Universal Self-Improvement (USI) en onze voorgestelde multi-round ranking-methode, T-RANK, aanzienlijk hogere kwaliteit van de uitvoer mogelijk maakt in vergelijking met traditionele pipelines. Ons raamwerk zorgt ervoor dat benchmarks hun oorspronkelijke taakstructuur en linguïstische nuances behouden tijdens lokalisatie. We passen deze aanpak toe om populaire benchmarks en datasets te vertalen in acht Oost- en Zuid-Europese talen (Oekraïens, Bulgaars, Slowaaks, Roemeens, Litouws, Ests, Turks, Grieks). Evaluaties met zowel referentiegebaseerde metrieken als LLM-as-a-judge laten zien dat onze vertalingen superieur zijn aan bestaande bronnen, wat resulteert in een nauwkeurigere beoordeling van downstream-modellen. We maken zowel het raamwerk als de verbeterde benchmarks vrij om robuuste en reproduceerbare meertalige AI-ontwikkeling te faciliteren.
English
The reliability of multilingual Large Language Model (LLM) evaluation is currently compromised by the inconsistent quality of translated benchmarks. Existing resources often suffer from semantic drift and context loss, which can lead to misleading performance metrics. In this work, we present a fully automated framework designed to address these challenges by enabling scalable, high-quality translation of datasets and benchmarks. We demonstrate that adapting test-time compute scaling strategies, specifically Universal Self-Improvement (USI) and our proposed multi-round ranking method, T-RANK, allows for significantly higher quality outputs compared to traditional pipelines. Our framework ensures that benchmarks preserve their original task structure and linguistic nuances during localization. We apply this approach to translate popular benchmarks and datasets into eight Eastern and Southern European languages (Ukrainian, Bulgarian, Slovak, Romanian, Lithuanian, Estonian, Turkish, Greek). Evaluations using both reference-based metrics and LLM-as-a-judge show that our translations surpass existing resources, resulting in more accurate downstream model assessment. We release both the framework and the improved benchmarks to facilitate robust and reproducible multilingual AI development.
PDF393March 7, 2026