IberBench: Avaliação de LLMs em Línguas Ibéricas
IberBench: LLM Evaluation on Iberian Languages
April 23, 2025
Autores: José Ángel González, Ian Borrego Obrador, Álvaro Romo Herrero, Areg Mikael Sarvazyan, Mara Chinea-Ríos, Angelo Basile, Marc Franco-Salvador
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) permanecem difíceis de avaliar de forma abrangente, especialmente para idiomas que não o inglês, onde dados de alta qualidade são frequentemente limitados. Os benchmarks e rankings existentes são predominantemente centrados no inglês, com apenas alguns abordando outros idiomas. Esses benchmarks apresentam deficiências em várias áreas-chave: eles negligenciam a diversidade de variedades linguísticas, priorizam capacidades fundamentais de Processamento de Linguagem Natural (NLP) em detrimento de tarefas de relevância industrial e são estáticos. Com esses aspectos em mente, apresentamos o IberBench, um benchmark abrangente e extensível projetado para avaliar o desempenho de LLMs tanto em tarefas fundamentais quanto em tarefas de NLP relevantes para a indústria, em idiomas falados na Península Ibérica e na Ibero-América. O IberBench integra 101 conjuntos de dados de campanhas de avaliação e benchmarks recentes, cobrindo 22 categorias de tarefas, como análise de sentimento e emoção, detecção de toxicidade e sumarização. O benchmark aborda limitações-chave nas práticas atuais de avaliação, como a falta de diversidade linguística e configurações de avaliação estáticas, permitindo atualizações contínuas e submissões de modelos e conjuntos de dados impulsionadas pela comunidade, moderadas por um comitê de especialistas. Avaliamos 23 LLMs variando de 100 milhões a 14 bilhões de parâmetros e fornecemos insights empíricos sobre seus pontos fortes e limitações. Nossas descobertas indicam que (i) os LLMs têm desempenho pior em tarefas relevantes para a indústria do que em tarefas fundamentais, (ii) o desempenho é, em média, menor para o galego e o basco, (iii) algumas tarefas apresentam resultados próximos ao acaso, e (iv) em outras tarefas, os LLMs têm desempenho acima do acaso, mas abaixo dos sistemas de tarefas compartilhadas. O IberBench oferece implementações de código aberto para todo o pipeline de avaliação, incluindo normalização e hospedagem de conjuntos de dados, avaliação incremental de LLMs e um ranking publicamente acessível.
English
Large Language Models (LLMs) remain difficult to evaluate comprehensively,
particularly for languages other than English, where high-quality data is often
limited. Existing benchmarks and leaderboards are predominantly
English-centric, with only a few addressing other languages. These benchmarks
fall short in several key areas: they overlook the diversity of language
varieties, prioritize fundamental Natural Language Processing (NLP)
capabilities over tasks of industrial relevance, and are static. With these
aspects in mind, we present IberBench, a comprehensive and extensible benchmark
designed to assess LLM performance on both fundamental and industry-relevant
NLP tasks, in languages spoken across the Iberian Peninsula and Ibero-America.
IberBench integrates 101 datasets from evaluation campaigns and recent
benchmarks, covering 22 task categories such as sentiment and emotion analysis,
toxicity detection, and summarization. The benchmark addresses key limitations
in current evaluation practices, such as the lack of linguistic diversity and
static evaluation setups by enabling continual updates and community-driven
model and dataset submissions moderated by a committee of experts. We evaluate
23 LLMs ranging from 100 million to 14 billion parameters and provide empirical
insights into their strengths and limitations. Our findings indicate that (i)
LLMs perform worse on industry-relevant tasks than in fundamental ones, (ii)
performance is on average lower for Galician and Basque, (iii) some tasks show
results close to random, and (iv) in other tasks LLMs perform above random but
below shared task systems. IberBench offers open-source implementations for the
entire evaluation pipeline, including dataset normalization and hosting,
incremental evaluation of LLMs, and a publicly accessible leaderboard.Summary
AI-Generated Summary