ChatPaper.aiChatPaper

FIN-bench-v2: Универсальный и надежный набор тестов для оценки финских больших языковых моделей

FIN-bench-v2: A Unified and Robust Benchmark Suite for Evaluating Finnish Large Language Models

December 15, 2025
Авторы: Joona Kytöniemi, Jousia Piha, Akseli Reunamo, Fedor Vitiugin, Farrokh Mehryary, Sampo Pyysalo
cs.AI

Аннотация

Мы представляем FIN-bench-v2 — унифицированный набор тестов для оценки больших языковых моделей на финском языке. FIN-bench-v2 объединяет финскоязычные версии широко используемых бенчмарков вместе с обновленной и расширенной версией оригинального FIN-bench в единую коллекцию с согласованным форматом, охватывающую задания с множественным выбором и генеративные задачи по таким направлениям, как понимание прочитанного, здравый смысл, анализ тональности, знание мира и соответствие требованиям. Все наборы данных конвертированы в формат HuggingFace Datasets и включают промпты типа «заполнение пропуска» и «множественный выбор» с пятью вариантами для каждой задачи; для машинно-переведенных ресурсов, таких как GoldenSwag и XED, проведена человеческая аннотация или проверка. Для отбора надежных задач мы предварительно обучаем набор декодерных моделей объемом 2,15 млрд параметров и используем их кривые обучения для вычисления монотонности, отношения сигнал-шум, неслучайности результатов и согласованности порядка моделей, оставляя только задачи, удовлетворяющие всем критериям. Дополнительно мы оцениваем набор более крупных инструктивно-настроенных моделей, чтобы охарактеризовать производительность across задачам и формам промптов. Все наборы данных, промпты и конфигурации оценки общедоступны через нашу версию Language Model Evaluation Harness по адресу https://github.com/LumiOpen/lm-evaluation-harness. Дополнительные ресурсы размещены в отдельном репозитории по адресу https://github.com/TurkuNLP/FIN-bench-v2.
English
We introduce FIN-bench-v2, a unified benchmark suite for evaluating large language models in Finnish. FIN-bench-v2 consolidates Finnish versions of widely used benchmarks together with an updated and expanded version of the original FIN-bench into a single, consistently formatted collection, covering multiple-choice and generative tasks across reading comprehension, commonsense reasoning, sentiment analysis, world knowledge, and alignment. All datasets are converted to HuggingFace Datasets, which include both cloze and multiple-choice prompt formulations with five variants per task, and we incorporate human annotation or review for machine-translated resources such as GoldenSwag and XED. To select robust tasks, we pretrain a set of 2.15B-parameter decoder-only models and use their learning curves to compute monotonicity, signal-to-noise, non-random performance, and model ordering consistency, retaining only tasks that satisfy all criteria. We further evaluate a set of larger instruction-tuned models to characterize performance across tasks and prompt formulations. All datasets, prompts, and evaluation configurations are publicly available via our fork of the Language Model Evaluation Harness at https://github.com/LumiOpen/lm-evaluation-harness. Supplementary resources are released in a separate repository at https://github.com/TurkuNLP/FIN-bench-v2.
PDF12December 17, 2025