FIN-bench-v2: Un conjunto de pruebas de evaluación unificado y robusto para evaluar modelos de lenguaje grandes en finés
FIN-bench-v2: A Unified and Robust Benchmark Suite for Evaluating Finnish Large Language Models
December 15, 2025
Autores: Joona Kytöniemi, Jousia Piha, Akseli Reunamo, Fedor Vitiugin, Farrokh Mehryary, Sampo Pyysalo
cs.AI
Resumen
Presentamos FIN-bench-v2, una suite de evaluación unificada para valorar modelos de lenguaje grandes en finés. FIN-bench-v2 consolida versiones en finés de benchmarks ampliamente utilizados, junto con una versión actualizada y ampliada del FIN-bench original, en una única colección con formato consistente que abarca tareas de opción múltiple y generativas en comprensión lectora, razonamiento de sentido común, análisis de sentimientos, conocimiento general y alineación. Todos los conjuntos de datos se han convertido al formato HuggingFace Datasets, incluyendo formulaciones de prompts tipo cloze y de opción múltiple con cinco variantes por tarea, e incorporamos anotación humana o revisión para recursos traducidos automáticamente, como GoldenSwag y XED. Para seleccionar tareas robustas, preentrenamos un conjunto de modelos de solo decodificador de 2.150 millones de parámetros y utilizamos sus curvas de aprendizaje para calcular la monotonicidad, la relación señal-ruido, el rendimiento no aleatorio y la consistencia en el ordenamiento de modelos, conservando únicamente las tareas que satisfacen todos los criterios. Evaluamos además un conjunto de modelos más grandes ajustados por instrucción para caracterizar el rendimiento en las distintas tareas y formulaciones de prompts. Todos los conjuntos de datos, prompts y configuraciones de evaluación están disponibles públicamente a través de nuestro fork de Language Model Evaluation Harness en https://github.com/LumiOpen/lm-evaluation-harness. Los recursos complementarios se publican en un repositorio separado en https://github.com/TurkuNLP/FIN-bench-v2.
English
We introduce FIN-bench-v2, a unified benchmark suite for evaluating large language models in Finnish. FIN-bench-v2 consolidates Finnish versions of widely used benchmarks together with an updated and expanded version of the original FIN-bench into a single, consistently formatted collection, covering multiple-choice and generative tasks across reading comprehension, commonsense reasoning, sentiment analysis, world knowledge, and alignment. All datasets are converted to HuggingFace Datasets, which include both cloze and multiple-choice prompt formulations with five variants per task, and we incorporate human annotation or review for machine-translated resources such as GoldenSwag and XED. To select robust tasks, we pretrain a set of 2.15B-parameter decoder-only models and use their learning curves to compute monotonicity, signal-to-noise, non-random performance, and model ordering consistency, retaining only tasks that satisfy all criteria. We further evaluate a set of larger instruction-tuned models to characterize performance across tasks and prompt formulations. All datasets, prompts, and evaluation configurations are publicly available via our fork of the Language Model Evaluation Harness at https://github.com/LumiOpen/lm-evaluation-harness. Supplementary resources are released in a separate repository at https://github.com/TurkuNLP/FIN-bench-v2.