ChatPaper.aiChatPaper

IberBench: Evaluación de Modelos de Lenguaje en Lenguas Ibéricas

IberBench: LLM Evaluation on Iberian Languages

April 23, 2025
Autores: José Ángel González, Ian Borrego Obrador, Álvaro Romo Herrero, Areg Mikael Sarvazyan, Mara Chinea-Ríos, Angelo Basile, Marc Franco-Salvador
cs.AI

Resumen

Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) siguen siendo difíciles de evaluar de manera integral, especialmente para idiomas distintos al inglés, donde los datos de alta calidad suelen ser limitados. Los puntos de referencia y clasificaciones existentes están predominantemente centrados en el inglés, con solo unos pocos que abordan otros idiomas. Estos puntos de referencia presentan varias deficiencias clave: pasan por alto la diversidad de variedades lingüísticas, priorizan capacidades fundamentales de Procesamiento del Lenguaje Natural (NLP) sobre tareas de relevancia industrial y son estáticos. Con estos aspectos en mente, presentamos IberBench, un punto de referencia integral y extensible diseñado para evaluar el rendimiento de los LLMs tanto en tareas fundamentales como en aquellas relevantes para la industria, en idiomas hablados en la Península Ibérica e Iberoamérica. IberBench integra 101 conjuntos de datos de campañas de evaluación y puntos de referencia recientes, cubriendo 22 categorías de tareas como análisis de sentimientos y emociones, detección de toxicidad y resumen. El punto de referencia aborda limitaciones clave en las prácticas de evaluación actuales, como la falta de diversidad lingüística y configuraciones de evaluación estáticas, al permitir actualizaciones continuas y envíos de modelos y conjuntos de datos impulsados por la comunidad, moderados por un comité de expertos. Evaluamos 23 LLMs que van desde 100 millones hasta 14 mil millones de parámetros y proporcionamos información empírica sobre sus fortalezas y limitaciones. Nuestros hallazgos indican que (i) los LLMs tienen un peor rendimiento en tareas relevantes para la industria que en las fundamentales, (ii) el rendimiento es en promedio más bajo para el gallego y el euskera, (iii) algunas tareas muestran resultados cercanos al azar, y (iv) en otras tareas los LLMs tienen un rendimiento superior al azar pero por debajo de los sistemas de tareas compartidas. IberBench ofrece implementaciones de código abierto para toda la canalización de evaluación, incluyendo normalización y alojamiento de conjuntos de datos, evaluación incremental de LLMs y una clasificación de acceso público.
English
Large Language Models (LLMs) remain difficult to evaluate comprehensively, particularly for languages other than English, where high-quality data is often limited. Existing benchmarks and leaderboards are predominantly English-centric, with only a few addressing other languages. These benchmarks fall short in several key areas: they overlook the diversity of language varieties, prioritize fundamental Natural Language Processing (NLP) capabilities over tasks of industrial relevance, and are static. With these aspects in mind, we present IberBench, a comprehensive and extensible benchmark designed to assess LLM performance on both fundamental and industry-relevant NLP tasks, in languages spoken across the Iberian Peninsula and Ibero-America. IberBench integrates 101 datasets from evaluation campaigns and recent benchmarks, covering 22 task categories such as sentiment and emotion analysis, toxicity detection, and summarization. The benchmark addresses key limitations in current evaluation practices, such as the lack of linguistic diversity and static evaluation setups by enabling continual updates and community-driven model and dataset submissions moderated by a committee of experts. We evaluate 23 LLMs ranging from 100 million to 14 billion parameters and provide empirical insights into their strengths and limitations. Our findings indicate that (i) LLMs perform worse on industry-relevant tasks than in fundamental ones, (ii) performance is on average lower for Galician and Basque, (iii) some tasks show results close to random, and (iv) in other tasks LLMs perform above random but below shared task systems. IberBench offers open-source implementations for the entire evaluation pipeline, including dataset normalization and hosting, incremental evaluation of LLMs, and a publicly accessible leaderboard.

Summary

AI-Generated Summary

PDF72April 25, 2025