ChatPaper.aiChatPaper

IberBench: Valutazione di LLM sulle Lingue Iberiche

IberBench: LLM Evaluation on Iberian Languages

April 23, 2025
Autori: José Ángel González, Ian Borrego Obrador, Álvaro Romo Herrero, Areg Mikael Sarvazyan, Mara Chinea-Ríos, Angelo Basile, Marc Franco-Salvador
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) rimangono difficili da valutare in modo completo, specialmente per lingue diverse dall'inglese, dove i dati di alta qualità sono spesso limitati. I benchmark e le classifiche esistenti sono prevalentemente centrati sull'inglese, con solo pochi che si occupano di altre lingue. Questi benchmark presentano diverse carenze chiave: trascurano la diversità delle varietà linguistiche, privilegiano le capacità fondamentali di elaborazione del linguaggio naturale (NLP) rispetto a compiti di rilevanza industriale e sono statici. Con questi aspetti in mente, presentiamo IberBench, un benchmark completo ed estensibile progettato per valutare le prestazioni degli LLM sia su compiti fondamentali che su quelli rilevanti per l'industria, nelle lingue parlate nella penisola iberica e nell'America iberoamericana. IberBench integra 101 dataset provenienti da campagne di valutazione e benchmark recenti, coprendo 22 categorie di compiti come l'analisi del sentiment e delle emozioni, il rilevamento della tossicità e la sintesi. Il benchmark affronta le principali limitazioni delle pratiche di valutazione attuali, come la mancanza di diversità linguistica e le configurazioni di valutazione statiche, consentendo aggiornamenti continui e la presentazione di modelli e dataset guidati dalla comunità, moderati da un comitato di esperti. Valutiamo 23 LLM con un numero di parametri compreso tra 100 milioni e 14 miliardi e forniamo approfondimenti empirici sui loro punti di forza e limitazioni. I nostri risultati indicano che (i) gli LLM performano peggio nei compiti rilevanti per l'industria rispetto a quelli fondamentali, (ii) le prestazioni sono in media inferiori per il galiziano e il basco, (iii) alcuni compiti mostrano risultati vicini al caso e (iv) in altri compiti gli LLM performano al di sopra del caso ma al di sotto dei sistemi condivisi. IberBench offre implementazioni open-source per l'intera pipeline di valutazione, inclusa la normalizzazione e l'hosting dei dataset, la valutazione incrementale degli LLM e una classifica pubblicamente accessibile.
English
Large Language Models (LLMs) remain difficult to evaluate comprehensively, particularly for languages other than English, where high-quality data is often limited. Existing benchmarks and leaderboards are predominantly English-centric, with only a few addressing other languages. These benchmarks fall short in several key areas: they overlook the diversity of language varieties, prioritize fundamental Natural Language Processing (NLP) capabilities over tasks of industrial relevance, and are static. With these aspects in mind, we present IberBench, a comprehensive and extensible benchmark designed to assess LLM performance on both fundamental and industry-relevant NLP tasks, in languages spoken across the Iberian Peninsula and Ibero-America. IberBench integrates 101 datasets from evaluation campaigns and recent benchmarks, covering 22 task categories such as sentiment and emotion analysis, toxicity detection, and summarization. The benchmark addresses key limitations in current evaluation practices, such as the lack of linguistic diversity and static evaluation setups by enabling continual updates and community-driven model and dataset submissions moderated by a committee of experts. We evaluate 23 LLMs ranging from 100 million to 14 billion parameters and provide empirical insights into their strengths and limitations. Our findings indicate that (i) LLMs perform worse on industry-relevant tasks than in fundamental ones, (ii) performance is on average lower for Galician and Basque, (iii) some tasks show results close to random, and (iv) in other tasks LLMs perform above random but below shared task systems. IberBench offers open-source implementations for the entire evaluation pipeline, including dataset normalization and hosting, incremental evaluation of LLMs, and a publicly accessible leaderboard.

Summary

AI-Generated Summary

PDF72April 25, 2025