IberBench: Evaluación de Modelos de Lenguaje en Lenguas Ibéricas
IberBench: LLM Evaluation on Iberian Languages
April 23, 2025
Autores: José Ángel González, Ian Borrego Obrador, Álvaro Romo Herrero, Areg Mikael Sarvazyan, Mara Chinea-Ríos, Angelo Basile, Marc Franco-Salvador
cs.AI
Resumen
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) siguen siendo difíciles de evaluar de manera integral, especialmente para idiomas distintos al inglés, donde los datos de alta calidad suelen ser limitados. Los puntos de referencia y clasificaciones existentes están predominantemente centrados en el inglés, con solo unos pocos que abordan otros idiomas. Estos puntos de referencia presentan varias deficiencias clave: pasan por alto la diversidad de variedades lingüísticas, priorizan capacidades fundamentales de Procesamiento del Lenguaje Natural (NLP) sobre tareas de relevancia industrial y son estáticos. Con estos aspectos en mente, presentamos IberBench, un punto de referencia integral y extensible diseñado para evaluar el rendimiento de los LLMs tanto en tareas fundamentales como en aquellas relevantes para la industria, en idiomas hablados en la Península Ibérica e Iberoamérica. IberBench integra 101 conjuntos de datos de campañas de evaluación y puntos de referencia recientes, cubriendo 22 categorías de tareas como análisis de sentimientos y emociones, detección de toxicidad y resumen. El punto de referencia aborda limitaciones clave en las prácticas de evaluación actuales, como la falta de diversidad lingüística y configuraciones de evaluación estáticas, al permitir actualizaciones continuas y envíos de modelos y conjuntos de datos impulsados por la comunidad, moderados por un comité de expertos. Evaluamos 23 LLMs que van desde 100 millones hasta 14 mil millones de parámetros y proporcionamos información empírica sobre sus fortalezas y limitaciones. Nuestros hallazgos indican que (i) los LLMs tienen un peor rendimiento en tareas relevantes para la industria que en las fundamentales, (ii) el rendimiento es en promedio más bajo para el gallego y el euskera, (iii) algunas tareas muestran resultados cercanos al azar, y (iv) en otras tareas los LLMs tienen un rendimiento superior al azar pero por debajo de los sistemas de tareas compartidas. IberBench ofrece implementaciones de código abierto para toda la canalización de evaluación, incluyendo normalización y alojamiento de conjuntos de datos, evaluación incremental de LLMs y una clasificación de acceso público.
English
Large Language Models (LLMs) remain difficult to evaluate comprehensively,
particularly for languages other than English, where high-quality data is often
limited. Existing benchmarks and leaderboards are predominantly
English-centric, with only a few addressing other languages. These benchmarks
fall short in several key areas: they overlook the diversity of language
varieties, prioritize fundamental Natural Language Processing (NLP)
capabilities over tasks of industrial relevance, and are static. With these
aspects in mind, we present IberBench, a comprehensive and extensible benchmark
designed to assess LLM performance on both fundamental and industry-relevant
NLP tasks, in languages spoken across the Iberian Peninsula and Ibero-America.
IberBench integrates 101 datasets from evaluation campaigns and recent
benchmarks, covering 22 task categories such as sentiment and emotion analysis,
toxicity detection, and summarization. The benchmark addresses key limitations
in current evaluation practices, such as the lack of linguistic diversity and
static evaluation setups by enabling continual updates and community-driven
model and dataset submissions moderated by a committee of experts. We evaluate
23 LLMs ranging from 100 million to 14 billion parameters and provide empirical
insights into their strengths and limitations. Our findings indicate that (i)
LLMs perform worse on industry-relevant tasks than in fundamental ones, (ii)
performance is on average lower for Galician and Basque, (iii) some tasks show
results close to random, and (iv) in other tasks LLMs perform above random but
below shared task systems. IberBench offers open-source implementations for the
entire evaluation pipeline, including dataset normalization and hosting,
incremental evaluation of LLMs, and a publicly accessible leaderboard.Summary
AI-Generated Summary