ChatPaper.aiChatPaper

IberBench: Оценка языковых моделей на иберо-романских языках

IberBench: LLM Evaluation on Iberian Languages

April 23, 2025
Авторы: José Ángel González, Ian Borrego Obrador, Álvaro Romo Herrero, Areg Mikael Sarvazyan, Mara Chinea-Ríos, Angelo Basile, Marc Franco-Salvador
cs.AI

Аннотация

Крупные языковые модели (LLM) остаются сложными для всесторонней оценки, особенно для языков, отличных от английского, где качественные данные часто ограничены. Существующие бенчмарки и рейтинги преимущественно ориентированы на английский язык, и лишь немногие из них охватывают другие языки. Эти бенчмарки имеют несколько ключевых недостатков: они игнорируют разнообразие языковых вариантов, уделяют больше внимания базовым возможностям обработки естественного языка (NLP), чем задачам, имеющим промышленное значение, и являются статичными. Учитывая эти аспекты, мы представляем IberBench — всеобъемлющий и расширяемый бенчмарк, предназначенный для оценки производительности LLM как на базовых, так и на промышленно значимых задачах NLP для языков, распространённых на Пиренейском полуострове и в Иберо-Америке. IberBench интегрирует 101 набор данных из оценочных кампаний и современных бенчмарков, охватывая 22 категории задач, таких как анализ настроений и эмоций, обнаружение токсичности и суммаризация. Бенчмарк устраняет ключевые ограничения текущих практик оценки, такие как недостаток языкового разнообразия и статичность оценочных настроек, позволяя проводить постоянные обновления и принимать модели и наборы данных, предложенные сообществом, которые модерируются комитетом экспертов. Мы оцениваем 23 LLM с количеством параметров от 100 миллионов до 14 миллиардов и предоставляем эмпирические данные об их сильных и слабых сторонах. Наши результаты показывают, что (i) LLM хуже справляются с промышленно значимыми задачами, чем с базовыми, (ii) производительность в среднем ниже для галисийского и баскского языков, (iii) в некоторых задачах результаты близки к случайным, и (iv) в других задачах LLM показывают результаты выше случайных, но ниже систем, участвующих в совместных задачах. IberBench предлагает открытые реализации для всего оценочного конвейера, включая нормализацию и хостинг наборов данных, инкрементальную оценку LLM и общедоступный рейтинг.
English
Large Language Models (LLMs) remain difficult to evaluate comprehensively, particularly for languages other than English, where high-quality data is often limited. Existing benchmarks and leaderboards are predominantly English-centric, with only a few addressing other languages. These benchmarks fall short in several key areas: they overlook the diversity of language varieties, prioritize fundamental Natural Language Processing (NLP) capabilities over tasks of industrial relevance, and are static. With these aspects in mind, we present IberBench, a comprehensive and extensible benchmark designed to assess LLM performance on both fundamental and industry-relevant NLP tasks, in languages spoken across the Iberian Peninsula and Ibero-America. IberBench integrates 101 datasets from evaluation campaigns and recent benchmarks, covering 22 task categories such as sentiment and emotion analysis, toxicity detection, and summarization. The benchmark addresses key limitations in current evaluation practices, such as the lack of linguistic diversity and static evaluation setups by enabling continual updates and community-driven model and dataset submissions moderated by a committee of experts. We evaluate 23 LLMs ranging from 100 million to 14 billion parameters and provide empirical insights into their strengths and limitations. Our findings indicate that (i) LLMs perform worse on industry-relevant tasks than in fundamental ones, (ii) performance is on average lower for Galician and Basque, (iii) some tasks show results close to random, and (iv) in other tasks LLMs perform above random but below shared task systems. IberBench offers open-source implementations for the entire evaluation pipeline, including dataset normalization and hosting, incremental evaluation of LLMs, and a publicly accessible leaderboard.

Summary

AI-Generated Summary

PDF72April 25, 2025