ChatPaper.aiChatPaper

Recuperados en la Traducción: Canalización Eficiente para la Traducción Automática de Puntos de Referencia y Conjuntos de Datos

Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets

February 25, 2026
Autores: Hanna Yukhymenko, Anton Alexandrov, Martin Vechev
cs.AI

Resumen

La fiabilidad de la evaluación de modelos de lenguaje grandes (LLM) multilingües se ve actualmente comprometida por la calidad inconsistente de los puntos de referencia traducidos. Los recursos existentes a menudo adolecen de deriva semántica y pérdida de contexto, lo que puede conducir a métricas de rendimiento engañosas. En este trabajo, presentamos un marco completamente automatizado diseñado para abordar estos desafíos, permitiendo la traducción escalable y de alta calidad de conjuntos de datos y benchmarks. Demostramos que la adaptación de estrategias de escalado de cómputo en el momento de la prueba, específicamente la Automejora Universal (USI) y nuestro método de clasificación de múltiples rondas propuesto, T-RANK, permite obtener resultados de calidad significativamente superior en comparación con los flujos de trabajo tradicionales. Nuestro marco garantiza que los puntos de referencia conserven su estructura de tarea original y sus matices lingüísticos durante la localización. Aplicamos este enfoque para traducir benchmarks y conjuntos de datos populares a ocho idiomas de Europa del Este y del Sur (ucraniano, búlgaro, eslovaco, rumano, lituano, estonio, turco, griego). Las evaluaciones que utilizan tanto métricas basadas en referencia como el método LLM-como-juez muestran que nuestras traducciones superan a los recursos existentes, dando como resultado una evaluación de modelos descendente más precisa. Publicamos tanto el marco como los benchmarks mejorados para facilitar un desarrollo de IA multilingüe robusto y reproducible.
English
The reliability of multilingual Large Language Model (LLM) evaluation is currently compromised by the inconsistent quality of translated benchmarks. Existing resources often suffer from semantic drift and context loss, which can lead to misleading performance metrics. In this work, we present a fully automated framework designed to address these challenges by enabling scalable, high-quality translation of datasets and benchmarks. We demonstrate that adapting test-time compute scaling strategies, specifically Universal Self-Improvement (USI) and our proposed multi-round ranking method, T-RANK, allows for significantly higher quality outputs compared to traditional pipelines. Our framework ensures that benchmarks preserve their original task structure and linguistic nuances during localization. We apply this approach to translate popular benchmarks and datasets into eight Eastern and Southern European languages (Ukrainian, Bulgarian, Slovak, Romanian, Lithuanian, Estonian, Turkish, Greek). Evaluations using both reference-based metrics and LLM-as-a-judge show that our translations surpass existing resources, resulting in more accurate downstream model assessment. We release both the framework and the improved benchmarks to facilitate robust and reproducible multilingual AI development.
PDF393March 7, 2026