FIN-bench-v2: Uma Suíte de Benchmark Unificada e Robusta para Avaliação de Grandes Modelos de Linguagem Finlandeses

Resumo

Apresentamos o FIN-bench-v2, um conjunto unificado de benchmarks para avaliação de grandes modelos de linguagem em finlandês. O FIN-bench-v2 consolida versões em finlandês de benchmarks amplamente utilizados, juntamente com uma versão atualizada e expandida do FIN-bench original, numa única coleção com formatação consistente, abrangendo tarefas de múltipla escolha e generativas em compreensão de leitura, raciocínio de senso comum, análise de sentimentos, conhecimento mundial e alinhamento. Todos os conjuntos de dados são convertidos para o formato HuggingFace Datasets, que inclui formulações de *prompts* do tipo *cloze* e múltipla escolha com cinco variantes por tarefa, e incorporamos anotação humana ou revisão para recursos traduzidos automaticamente, como o GoldenSwag e o XED. Para selecionar tarefas robustas, pré-treinamos um conjunto de modelos *decoder-only* com 2,15 mil milhões de parâmetros e usamos as suas curvas de aprendizagem para calcular a monotonicidade, relação sinal-ruído, desempenho não aleatório e consistência na ordenação de modelos, mantendo apenas as tarefas que satisfazem todos os critérios. Avaliamos ainda um conjunto de modelos maiores, ajustados por instrução, para caracterizar o desempenho entre tarefas e formulações de *prompts*. Todos os conjuntos de dados, *prompts* e configurações de avaliação estão publicamente disponíveis através do nosso *fork* do *Language Model Evaluation Harness* em https://github.com/LumiOpen/lm-evaluation-harness. Recursos suplementares são disponibilizados num repositório separado em https://github.com/TurkuNLP/FIN-bench-v2.

English

We introduce FIN-bench-v2, a unified benchmark suite for evaluating large language models in Finnish. FIN-bench-v2 consolidates Finnish versions of widely used benchmarks together with an updated and expanded version of the original FIN-bench into a single, consistently formatted collection, covering multiple-choice and generative tasks across reading comprehension, commonsense reasoning, sentiment analysis, world knowledge, and alignment. All datasets are converted to HuggingFace Datasets, which include both cloze and multiple-choice prompt formulations with five variants per task, and we incorporate human annotation or review for machine-translated resources such as GoldenSwag and XED. To select robust tasks, we pretrain a set of 2.15B-parameter decoder-only models and use their learning curves to compute monotonicity, signal-to-noise, non-random performance, and model ordering consistency, retaining only tasks that satisfy all criteria. We further evaluate a set of larger instruction-tuned models to characterize performance across tasks and prompt formulations. All datasets, prompts, and evaluation configurations are publicly available via our fork of the Language Model Evaluation Harness at https://github.com/LumiOpen/lm-evaluation-harness. Supplementary resources are released in a separate repository at https://github.com/TurkuNLP/FIN-bench-v2.

FIN-bench-v2: Uma Suíte de Benchmark Unificada e Robusta para Avaliação de Grandes Modelos de Linguagem Finlandeses

FIN-bench-v2: A Unified and Robust Benchmark Suite for Evaluating Finnish Large Language Models

Resumo

Support