ChatPaper.aiChatPaper

FinGPT: Große generative Modelle für eine kleine Sprache

FinGPT: Large Generative Models for a Small Language

November 3, 2023
Autoren: Risto Luukkonen, Ville Komulainen, Jouni Luoma, Anni Eskelinen, Jenna Kanerva, Hanna-Mari Kupari, Filip Ginter, Veronika Laippala, Niklas Muennighoff, Aleksandra Piktus, Thomas Wang, Nouamane Tazi, Teven Le Scao, Thomas Wolf, Osma Suominen, Samuli Sairanen, Mikko Merioksa, Jyrki Heinonen, Aija Vahtola, Samuel Antao, Sampo Pyysalo
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) zeichnen sich in vielen Aufgaben der NLP und darüber hinaus aus, aber die meisten offenen Modelle haben eine sehr begrenzte Abdeckung kleinerer Sprachen, und die Arbeit mit LLMs konzentriert sich tendenziell auf Sprachen, in denen nahezu unbegrenzte Daten für das Vortraining verfügbar sind. In dieser Arbeit untersuchen wir die Herausforderungen bei der Erstellung von LLMs für Finnisch, eine Sprache, die von weniger als 0,1 % der Weltbevölkerung gesprochen wird. Wir stellen einen umfangreichen Datensatz für Finnisch zusammen, der Web-Crawls, Nachrichten, soziale Medien und E-Books kombiniert. Wir verfolgen zwei Ansätze für das Vortraining von Modellen: 1) Wir trainieren sieben monolinguale Modelle von Grund auf (186M bis 13B Parameter), die wir FinGPT nennen, 2) wir setzen das Vortraining des mehrsprachigen BLOOM-Modells mit einer Mischung aus seinen ursprünglichen Trainingsdaten und Finnisch fort, was zu einem 176 Milliarden Parameter umfassenden Modell führt, das wir BLUUMI nennen. Für die Modellbewertung führen wir FIN-bench ein, eine Version von BIG-bench mit finnischen Aufgaben. Wir bewerten auch andere Modellqualitäten wie Toxizität und Verzerrung. Unsere Modelle und Tools sind offen verfügbar unter https://turkunlp.org/gpt3-finnish.
English
Large language models (LLMs) excel in many tasks in NLP and beyond, but most open models have very limited coverage of smaller languages and LLM work tends to focus on languages where nearly unlimited data is available for pretraining. In this work, we study the challenges of creating LLMs for Finnish, a language spoken by less than 0.1% of the world population. We compile an extensive dataset of Finnish combining web crawls, news, social media and eBooks. We pursue two approaches to pretrain models: 1) we train seven monolingual models from scratch (186M to 13B parameters) dubbed FinGPT, 2) we continue the pretraining of the multilingual BLOOM model on a mix of its original training data and Finnish, resulting in a 176 billion parameter model we call BLUUMI. For model evaluation, we introduce FIN-bench, a version of BIG-bench with Finnish tasks. We also assess other model qualities such as toxicity and bias. Our models and tools are openly available at https://turkunlp.org/gpt3-finnish.
PDF321December 15, 2024