FIN-bench-v2 : Une suite de benchmarks unifiée et robuste pour l'évaluation des grands modèles linguistiques finnois
FIN-bench-v2: A Unified and Robust Benchmark Suite for Evaluating Finnish Large Language Models
December 15, 2025
papers.authors: Joona Kytöniemi, Jousia Piha, Akseli Reunamo, Fedor Vitiugin, Farrokh Mehryary, Sampo Pyysalo
cs.AI
papers.abstract
Nous présentons FIN-bench-v2, une suite de benchmarks unifiée pour l'évaluation des grands modèles de langage en finnois. FIN-bench-v2 regroupe des versions finnoises de benchmarks largement utilisés ainsi qu'une version mise à jour et élargie du FIN-bench original en une collection unique et formatée de manière cohérente, couvrant des tâches à choix multiples et génératives dans les domaines de la compréhension de lecture, du raisonnement de bon sens, de l'analyse de sentiment, des connaissances générales et de l'alignement. Tous les jeux de données sont convertis au format HuggingFace Datasets et incluent des formulations de prompts de type "texte à trous" et à choix multiples avec cinq variantes par tâche. Nous avons intégré une annotation humaine ou une révision pour les ressources traduites automatiquement, telles que GoldenSwag et XED. Pour sélectionner des tâches robustes, nous avons pré-entraîné un ensemble de modèles décodeurs uniquement de 2,15 milliards de paramètres et utilisé leurs courbes d'apprentissage pour calculer la monotonie, le rapport signal-bruit, les performances non aléatoires et la cohérence de l'ordre des modèles, en ne conservant que les tâches satisfaisant tous ces critères. Nous avons en outre évalué un ensemble de modèles plus grands, fine-tunés par instruction, pour caractériser les performances à travers les tâches et les formulations de prompts. Tous les jeux de données, prompts et configurations d'évaluation sont disponibles publiquement via notre fork du Language Model Evaluation Harness à l'adresse https://github.com/LumiOpen/lm-evaluation-harness. Les ressources supplémentaires sont publiées dans un dépôt séparé à l'adresse https://github.com/TurkuNLP/FIN-bench-v2.
English
We introduce FIN-bench-v2, a unified benchmark suite for evaluating large language models in Finnish. FIN-bench-v2 consolidates Finnish versions of widely used benchmarks together with an updated and expanded version of the original FIN-bench into a single, consistently formatted collection, covering multiple-choice and generative tasks across reading comprehension, commonsense reasoning, sentiment analysis, world knowledge, and alignment. All datasets are converted to HuggingFace Datasets, which include both cloze and multiple-choice prompt formulations with five variants per task, and we incorporate human annotation or review for machine-translated resources such as GoldenSwag and XED. To select robust tasks, we pretrain a set of 2.15B-parameter decoder-only models and use their learning curves to compute monotonicity, signal-to-noise, non-random performance, and model ordering consistency, retaining only tasks that satisfy all criteria. We further evaluate a set of larger instruction-tuned models to characterize performance across tasks and prompt formulations. All datasets, prompts, and evaluation configurations are publicly available via our fork of the Language Model Evaluation Harness at https://github.com/LumiOpen/lm-evaluation-harness. Supplementary resources are released in a separate repository at https://github.com/TurkuNLP/FIN-bench-v2.