ChatPaper.aiChatPaper

FIN-bench-v2: Een uniforme en robuuste benchmark-suite voor de evaluatie van Finse grote taalmodellen

FIN-bench-v2: A Unified and Robust Benchmark Suite for Evaluating Finnish Large Language Models

December 15, 2025
Auteurs: Joona Kytöniemi, Jousia Piha, Akseli Reunamo, Fedor Vitiugin, Farrokh Mehryary, Sampo Pyysalo
cs.AI

Samenvatting

Wij introduceren FIN-bench-v2, een uniforme benchmark suite voor de evaluatie van grote taalmodel(len) in het Fins. FIN-bench-v2 consolideert Finse versies van veelgebruikte benchmarks samen met een geüpdatete en uitgebreide versie van de oorspronkelijke FIN-bench in een enkele, consistent geformatteerde collectie. Deze dekt meerkeuze- en generatieve taken op het gebied van leesbegrip, gezond verstand (commonsense reasoning), sentimentanalyse, wereldkennis en alignment. Alle datasets zijn geconverteerd naar het HuggingFace Datasets-formaat, waarbij zowel cloze- als meerkeuzeprompts zijn opgenomen met vijf varianten per taak. Voor machinaal vertaalde bronnen, zoals GoldenSwag en XED, hebben we menselijke annotatie of review geïntegreerd. Om robuuste taken te selecteren, pretrainen we een reeks decoder-only modellen van 2,15 miljard parameters en gebruiken we hun leercurves om monotoniciteit, signaal-ruisverhouding, niet-willekeurige prestaties en consistentie in modelordening te berekenen. Alleen taken die aan alle criteria voldoen, worden behouden. We evalueren verder een reeks grotere, op instructies afgestemde modellen om de prestaties over taken en promptformuleringen heen te karakteriseren. Alle datasets, prompts en evaluatieconfiguraties zijn openbaar beschikbaar via onze fork van de Language Model Evaluation Harness op https://github.com/LumiOpen/lm-evaluation-harness. Aanvullende bronnen zijn vrijgegeven in een aparte repository op https://github.com/TurkuNLP/FIN-bench-v2.
English
We introduce FIN-bench-v2, a unified benchmark suite for evaluating large language models in Finnish. FIN-bench-v2 consolidates Finnish versions of widely used benchmarks together with an updated and expanded version of the original FIN-bench into a single, consistently formatted collection, covering multiple-choice and generative tasks across reading comprehension, commonsense reasoning, sentiment analysis, world knowledge, and alignment. All datasets are converted to HuggingFace Datasets, which include both cloze and multiple-choice prompt formulations with five variants per task, and we incorporate human annotation or review for machine-translated resources such as GoldenSwag and XED. To select robust tasks, we pretrain a set of 2.15B-parameter decoder-only models and use their learning curves to compute monotonicity, signal-to-noise, non-random performance, and model ordering consistency, retaining only tasks that satisfy all criteria. We further evaluate a set of larger instruction-tuned models to characterize performance across tasks and prompt formulations. All datasets, prompts, and evaluation configurations are publicly available via our fork of the Language Model Evaluation Harness at https://github.com/LumiOpen/lm-evaluation-harness. Supplementary resources are released in a separate repository at https://github.com/TurkuNLP/FIN-bench-v2.
PDF32December 22, 2025