FIN-bench-v2: フィンランド語大規模言語モデル評価のための統合的かつ堅牢なベンチマークスイート
FIN-bench-v2: A Unified and Robust Benchmark Suite for Evaluating Finnish Large Language Models
December 15, 2025
著者: Joona Kytöniemi, Jousia Piha, Akseli Reunamo, Fedor Vitiugin, Farrokh Mehryary, Sampo Pyysalo
cs.AI
要旨
FIN-bench-v2を紹介する。これは、フィンランド語における大規模言語モデルの評価のための統一ベンチマークスイートである。FIN-bench-v2は、広く使用されているベンチマークのフィンランド語版と、オリジナルのFIN-benchを更新・拡張したバージョンを、一貫した形式の単一のコレクションに統合している。これにより、読解、常識推論、感情分析、世界知識、アライメントにわたる多肢選択式および生成タスクを網羅する。すべてのデータセットはHuggingFace Datasets形式に変換され、各タスクごとに5種類の空所補充および多肢選択式プロンプト形式を含む。GoldenSwagやXEDなど機械翻訳されたリソースについては、人手による注釈またはレビューを組み込んでいる。
堅牢なタスクを選択するため、22.5億パラメータのデコーダのみのモデル群を事前学習し、その学習曲線を用いて単調性、信号対雑音比、非ランダム性能、モデル順序一貫性を計算し、全ての基準を満たすタスクのみを保持した。さらに、より大規模な命令チューニングされたモデル群を評価し、タスクおよびプロンプト形式にわたる性能特性を明らかにした。
すべてのデータセット、プロンプト、評価設定は、Language Model Evaluation Harnessのフォークであるhttps://github.com/LumiOpen/lm-evaluation-harness で公開されている。補足リソースは、別のリポジトリ https://github.com/TurkuNLP/FIN-bench-v2 で公開されている。
English
We introduce FIN-bench-v2, a unified benchmark suite for evaluating large language models in Finnish. FIN-bench-v2 consolidates Finnish versions of widely used benchmarks together with an updated and expanded version of the original FIN-bench into a single, consistently formatted collection, covering multiple-choice and generative tasks across reading comprehension, commonsense reasoning, sentiment analysis, world knowledge, and alignment. All datasets are converted to HuggingFace Datasets, which include both cloze and multiple-choice prompt formulations with five variants per task, and we incorporate human annotation or review for machine-translated resources such as GoldenSwag and XED. To select robust tasks, we pretrain a set of 2.15B-parameter decoder-only models and use their learning curves to compute monotonicity, signal-to-noise, non-random performance, and model ordering consistency, retaining only tasks that satisfy all criteria. We further evaluate a set of larger instruction-tuned models to characterize performance across tasks and prompt formulations. All datasets, prompts, and evaluation configurations are publicly available via our fork of the Language Model Evaluation Harness at https://github.com/LumiOpen/lm-evaluation-harness. Supplementary resources are released in a separate repository at https://github.com/TurkuNLP/FIN-bench-v2.