ChatPaper.aiChatPaper

FinGPT: Modelli Generativi di Grande Scala per una Lingua Minore

FinGPT: Large Generative Models for a Small Language

November 3, 2023
Autori: Risto Luukkonen, Ville Komulainen, Jouni Luoma, Anni Eskelinen, Jenna Kanerva, Hanna-Mari Kupari, Filip Ginter, Veronika Laippala, Niklas Muennighoff, Aleksandra Piktus, Thomas Wang, Nouamane Tazi, Teven Le Scao, Thomas Wolf, Osma Suominen, Samuli Sairanen, Mikko Merioksa, Jyrki Heinonen, Aija Vahtola, Samuel Antao, Sampo Pyysalo
cs.AI

Abstract

I grandi modelli linguistici (LLM) eccellono in molti compiti nell'ambito del NLP e oltre, ma la maggior parte dei modelli open ha una copertura molto limitata per le lingue minori e il lavoro sugli LLM tende a concentrarsi su lingue per cui sono disponibili dati pressoché illimitati per il pre-training. In questo lavoro, studiamo le sfide legate alla creazione di LLM per il finlandese, una lingua parlata da meno dello 0,1% della popolazione mondiale. Compiliamo un ampio dataset di finlandese combinando crawl web, notizie, social media ed eBook. Seguiamo due approcci per il pre-training dei modelli: 1) addestriamo da zero sette modelli monolingue (da 186M a 13B parametri) denominati FinGPT, 2) continuiamo il pre-training del modello multilingue BLOOM su un mix dei suoi dati di addestramento originali e di finlandese, ottenendo un modello da 176 miliardi di parametri che chiamiamo BLUUMI. Per la valutazione dei modelli, introduciamo FIN-bench, una versione di BIG-bench con compiti in finlandese. Valutiamo anche altre qualità dei modelli, come la tossicità e i bias. I nostri modelli e strumenti sono disponibili pubblicamente all'indirizzo https://turkunlp.org/gpt3-finnish.
English
Large language models (LLMs) excel in many tasks in NLP and beyond, but most open models have very limited coverage of smaller languages and LLM work tends to focus on languages where nearly unlimited data is available for pretraining. In this work, we study the challenges of creating LLMs for Finnish, a language spoken by less than 0.1% of the world population. We compile an extensive dataset of Finnish combining web crawls, news, social media and eBooks. We pursue two approaches to pretrain models: 1) we train seven monolingual models from scratch (186M to 13B parameters) dubbed FinGPT, 2) we continue the pretraining of the multilingual BLOOM model on a mix of its original training data and Finnish, resulting in a 176 billion parameter model we call BLUUMI. For model evaluation, we introduce FIN-bench, a version of BIG-bench with Finnish tasks. We also assess other model qualities such as toxicity and bias. Our models and tools are openly available at https://turkunlp.org/gpt3-finnish.
PDF311December 15, 2024