FIN-bench-v2: Una Suite di Benchmark Unificata e Robusta per la Valutazione dei Grandi Modelli Linguistici Finlandesi
FIN-bench-v2: A Unified and Robust Benchmark Suite for Evaluating Finnish Large Language Models
December 15, 2025
Autori: Joona Kytöniemi, Jousia Piha, Akseli Reunamo, Fedor Vitiugin, Farrokh Mehryary, Sampo Pyysalo
cs.AI
Abstract
Presentiamo FIN-bench-v2, una suite di benchmark unificata per la valutazione di modelli linguistici di grandi dimensioni in finlandese. FIN-bench-v2 consolida le versioni finlandesi di benchmark ampiamente utilizzati insieme a una versione aggiornata ed espansa del FIN-bench originale in un'unica raccolta formattata in modo coerente, che copre attività a scelta multipla e generative relative a comprensione della lettura, ragionamento di senso comune, analisi del sentiment, conoscenza generale e allineamento. Tutti i dataset sono convertiti nel formato HuggingFace Datasets, che include formulazioni di prompt sia di tipo cloze che a scelta multipla con cinque varianti per attività, e incorporiamo annotazioni umane o revisioni per risorse tradotte automaticamente, come GoldenSwag e XED. Per selezionare compiti robusti, addestriamo preliminarmente una serie di modelli decoder-only da 2,15 miliardi di parametri e utilizziamo le loro curve di apprendimento per calcolare la monotonicità, il rapporto segnale-rumore, le prestazioni non casuali e la coerenza nell'ordinamento dei modelli, mantenendo solo i compiti che soddisfano tutti i criteri. Valutiamo inoltre una serie di modelli più grandi ottimizzati per istruzioni per caratterizzare le prestazioni tra i diversi compiti e formulazioni di prompt. Tutti i dataset, i prompt e le configurazioni di valutazione sono disponibili pubblicamente tramite il nostro fork di Language Model Evaluation Harness all'indirizzo https://github.com/LumiOpen/lm-evaluation-harness. Le risorse supplementari sono rilasciate in un repository separato all'indirizzo https://github.com/TurkuNLP/FIN-bench-v2.
English
We introduce FIN-bench-v2, a unified benchmark suite for evaluating large language models in Finnish. FIN-bench-v2 consolidates Finnish versions of widely used benchmarks together with an updated and expanded version of the original FIN-bench into a single, consistently formatted collection, covering multiple-choice and generative tasks across reading comprehension, commonsense reasoning, sentiment analysis, world knowledge, and alignment. All datasets are converted to HuggingFace Datasets, which include both cloze and multiple-choice prompt formulations with five variants per task, and we incorporate human annotation or review for machine-translated resources such as GoldenSwag and XED. To select robust tasks, we pretrain a set of 2.15B-parameter decoder-only models and use their learning curves to compute monotonicity, signal-to-noise, non-random performance, and model ordering consistency, retaining only tasks that satisfy all criteria. We further evaluate a set of larger instruction-tuned models to characterize performance across tasks and prompt formulations. All datasets, prompts, and evaluation configurations are publicly available via our fork of the Language Model Evaluation Harness at https://github.com/LumiOpen/lm-evaluation-harness. Supplementary resources are released in a separate repository at https://github.com/TurkuNLP/FIN-bench-v2.