FIN-bench-v2: Eine einheitliche und robuste Benchmark-Suite zur Bewertung finnischer Large Language Models
FIN-bench-v2: A Unified and Robust Benchmark Suite for Evaluating Finnish Large Language Models
December 15, 2025
papers.authors: Joona Kytöniemi, Jousia Piha, Akseli Reunamo, Fedor Vitiugin, Farrokh Mehryary, Sampo Pyysalo
cs.AI
papers.abstract
Wir stellen FIN-bench-v2 vor, eine einheitliche Benchmark-Suite zur Bewertung großer Sprachmodelle für Finnisch. FIN-bench-v2 konsolidiert finnische Versionen weit verbreiteter Benchmarks zusammen mit einer aktualisierten und erweiterten Version des ursprünglichen FIN-bench zu einer einzigen, einheitlich formatierten Sammlung, die Multiple-Choice- und generative Aufgaben in den Bereichen Leseverständnis, Common-Sense-Reasoning, Sentimentanalyse, Weltwissen und Alignment abdeckt. Alle Datensätze werden in das HuggingFace-Datasets-Format konvertiert, das sowohl Cloze- als auch Multiple-Choice-Prompt-Formulierungen mit fünf Varianten pro Aufgabe umfasst, und wir integrieren menschliche Annotation oder Überprüfung für maschinell übersetzte Ressourcen wie GoldenSwag und XED. Um robuste Aufgaben auszuwählen, pretrainieren wir eine Reihe von decoder-only-Modellen mit 2,15 Milliarden Parametern und verwenden deren Lernkurven, um Monotonie, Signal-Rausch-Verhältnis, nicht-zufällige Leistung und Konsistenz der Modellreihenfolge zu berechnen, wobei nur Aufgaben beibehalten werden, die alle Kriterien erfüllen. Wir evaluieren weiterhin eine Reihe größerer instruktionsfinetunter Modelle, um die Leistung über verschiedene Aufgaben und Prompt-Formulierungen hinweg zu charakterisieren. Alle Datensätze, Prompts und Evaluierungskonfigurationen sind öffentlich über unseren Fork des Language Model Evaluation Harness unter https://github.com/LumiOpen/lm-evaluation-harness verfügbar. Ergänzende Ressourcen werden in einem separaten Repository unter https://github.com/TurkuNLP/FIN-bench-v2 veröffentlicht.
English
We introduce FIN-bench-v2, a unified benchmark suite for evaluating large language models in Finnish. FIN-bench-v2 consolidates Finnish versions of widely used benchmarks together with an updated and expanded version of the original FIN-bench into a single, consistently formatted collection, covering multiple-choice and generative tasks across reading comprehension, commonsense reasoning, sentiment analysis, world knowledge, and alignment. All datasets are converted to HuggingFace Datasets, which include both cloze and multiple-choice prompt formulations with five variants per task, and we incorporate human annotation or review for machine-translated resources such as GoldenSwag and XED. To select robust tasks, we pretrain a set of 2.15B-parameter decoder-only models and use their learning curves to compute monotonicity, signal-to-noise, non-random performance, and model ordering consistency, retaining only tasks that satisfy all criteria. We further evaluate a set of larger instruction-tuned models to characterize performance across tasks and prompt formulations. All datasets, prompts, and evaluation configurations are publicly available via our fork of the Language Model Evaluation Harness at https://github.com/LumiOpen/lm-evaluation-harness. Supplementary resources are released in a separate repository at https://github.com/TurkuNLP/FIN-bench-v2.