FIN-bench-v2: 핀란드 대규모 언어 모델 평가를 위한 통합 및 강건한 벤치마크 제품군
FIN-bench-v2: A Unified and Robust Benchmark Suite for Evaluating Finnish Large Language Models
December 15, 2025
저자: Joona Kytöniemi, Jousia Piha, Akseli Reunamo, Fedor Vitiugin, Farrokh Mehryary, Sampo Pyysalo
cs.AI
초록
우리는 핀란드어 대규모 언어 모델 평가를 위한 통합 벤치마크 제품군인 FIN-bench-v2를 소개한다. FIN-bench-v2는 널리 사용되는 벤치마크의 핀란드어 버전을 기존 FIN-bench의 업데이트 및 확장 버전과 통합하여, 독해, 상식 추론, 감정 분석, 세계 지식, 정렬(alignment)에 걸친 객관식 및 생성형 과제를 포괄하는 일관된 형식의 단일 컬렉션으로 구성된다. 모든 데이터셋은 HuggingFace Datasets 형식으로 변환되었으며, 각 과제당 5가지 변형을 포함한 빈칸 채우기 및 객관식 프롬프트 형식을 제공한다. 또한 GoldenSwag 및 XED와 같은 기계 번역 자원에 대해서는 인간의 주석 작업 또는 검토를 포함시켰다. 강건한 과제를 선별하기 위해 2.15B 매개변수 디코더 전용 모델 세트를 사전 학습하고, 그 학습 곡선을 활용하여 단조성(monotonicity), 신호 대 잡음비(signal-to-noise), 비무작위 성능(non-random performance), 모델 순서 일관성(model ordering consistency)을 계산하여 모든 기준을 충족하는 과제만을 선정하였다. 또한 더 큰 규모의 지시 튜닝 모델 세트를 추가 평가하여 다양한 과제와 프롬프트 형식에 따른 성능 특성을 분석하였다. 모든 데이터셋, 프롬프트 및 평가 설정은 https://github.com/LumiOpen/lm-evaluation-harness 의 Language Model Evaluation Harness 포크를 통해 공개되어 있다. 보조 자료는 별도 저장소인 https://github.com/TurkuNLP/FIN-bench-v2 에서 공개한다.
English
We introduce FIN-bench-v2, a unified benchmark suite for evaluating large language models in Finnish. FIN-bench-v2 consolidates Finnish versions of widely used benchmarks together with an updated and expanded version of the original FIN-bench into a single, consistently formatted collection, covering multiple-choice and generative tasks across reading comprehension, commonsense reasoning, sentiment analysis, world knowledge, and alignment. All datasets are converted to HuggingFace Datasets, which include both cloze and multiple-choice prompt formulations with five variants per task, and we incorporate human annotation or review for machine-translated resources such as GoldenSwag and XED. To select robust tasks, we pretrain a set of 2.15B-parameter decoder-only models and use their learning curves to compute monotonicity, signal-to-noise, non-random performance, and model ordering consistency, retaining only tasks that satisfy all criteria. We further evaluate a set of larger instruction-tuned models to characterize performance across tasks and prompt formulations. All datasets, prompts, and evaluation configurations are publicly available via our fork of the Language Model Evaluation Harness at https://github.com/LumiOpen/lm-evaluation-harness. Supplementary resources are released in a separate repository at https://github.com/TurkuNLP/FIN-bench-v2.