La dura lección aprendida de más de 2,000 benchmarks multilingües
The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks
April 22, 2025
Autores: Minghao Wu, Weixuan Wang, Sinuo Liu, Huifeng Yin, Xintong Wang, Yu Zhao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI
Resumen
A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) continúan avanzando en sus capacidades lingüísticas, la evaluación multilingüe robusta se ha vuelto esencial para promover un progreso tecnológico equitativo. Este documento de posición examina más de 2,000 puntos de referencia multilingües (no en inglés) de 148 países, publicados entre 2021 y 2024, para evaluar las prácticas pasadas, presentes y futuras en la evaluación multilingüe. Nuestros hallazgos revelan que, a pesar de inversiones significativas que ascienden a decenas de millones de dólares, el inglés sigue estando significativamente sobrerrepresentado en estos puntos de referencia. Además, la mayoría de los puntos de referencia se basan en contenido en el idioma original en lugar de traducciones, con la mayoría proveniente de países con recursos abundantes como China, India, Alemania, el Reino Unido y los Estados Unidos. Asimismo, una comparación del rendimiento de los puntos de referencia con los juicios humanos destaca disparidades notables. Las tareas relacionadas con STEM muestran fuertes correlaciones con las evaluaciones humanas (0.70 a 0.85), mientras que las tareas tradicionales de PLN, como la respuesta a preguntas (por ejemplo, XQuAD), muestran correlaciones mucho más débiles (0.11 a 0.30). Además, traducir puntos de referencia en inglés a otros idiomas resulta insuficiente, ya que los puntos de referencia localizados demuestran una alineación significativamente mayor con los juicios humanos locales (0.68) que sus contrapartes traducidas (0.47). Esto subraya la importancia de crear puntos de referencia adaptados cultural y lingüísticamente en lugar de depender únicamente de traducciones. A través de este análisis exhaustivo, destacamos seis limitaciones clave en las prácticas actuales de evaluación multilingüe, proponemos los principios rectores correspondientes para una evaluación multilingüe efectiva y delineamos cinco direcciones críticas de investigación para impulsar el progreso en el campo. Finalmente, hacemos un llamado a un esfuerzo colaborativo global para desarrollar puntos de referencia alineados con los humanos que prioricen aplicaciones del mundo real.
English
As large language models (LLMs) continue to advance in linguistic
capabilities, robust multilingual evaluation has become essential for promoting
equitable technological progress. This position paper examines over 2,000
multilingual (non-English) benchmarks from 148 countries, published between
2021 and 2024, to evaluate past, present, and future practices in multilingual
benchmarking. Our findings reveal that, despite significant investments
amounting to tens of millions of dollars, English remains significantly
overrepresented in these benchmarks. Additionally, most benchmarks rely on
original language content rather than translations, with the majority sourced
from high-resource countries such as China, India, Germany, the UK, and the
USA. Furthermore, a comparison of benchmark performance with human judgments
highlights notable disparities. STEM-related tasks exhibit strong correlations
with human evaluations (0.70 to 0.85), while traditional NLP tasks like
question answering (e.g., XQuAD) show much weaker correlations (0.11 to 0.30).
Moreover, translating English benchmarks into other languages proves
insufficient, as localized benchmarks demonstrate significantly higher
alignment with local human judgments (0.68) than their translated counterparts
(0.47). This underscores the importance of creating culturally and
linguistically tailored benchmarks rather than relying solely on translations.
Through this comprehensive analysis, we highlight six key limitations in
current multilingual evaluation practices, propose the guiding principles
accordingly for effective multilingual benchmarking, and outline five critical
research directions to drive progress in the field. Finally, we call for a
global collaborative effort to develop human-aligned benchmarks that prioritize
real-world applications.Summary
AI-Generated Summary