ChatPaper.aiChatPaper

FinGPT: 소규모 언어를 위한 대형 생성 모델

FinGPT: Large Generative Models for a Small Language

November 3, 2023
저자: Risto Luukkonen, Ville Komulainen, Jouni Luoma, Anni Eskelinen, Jenna Kanerva, Hanna-Mari Kupari, Filip Ginter, Veronika Laippala, Niklas Muennighoff, Aleksandra Piktus, Thomas Wang, Nouamane Tazi, Teven Le Scao, Thomas Wolf, Osma Suominen, Samuli Sairanen, Mikko Merioksa, Jyrki Heinonen, Aija Vahtola, Samuel Antao, Sampo Pyysalo
cs.AI

초록

대형 언어 모델(LLMs)은 자연어 처리(NLP) 및 그 이상의 다양한 작업에서 뛰어난 성능을 보이지만, 대부분의 오픈 모델은 소규모 언어에 대한 커버리지가 매우 제한적이며, LLM 연구는 사전 학습을 위해 거의 무제한의 데이터가 사용 가능한 언어에 집중되는 경향이 있습니다. 본 연구에서는 세계 인구의 0.1% 미만이 사용하는 핀란드어를 위한 LLM을 생성하는 데 따른 도전 과제를 탐구합니다. 우리는 웹 크롤링, 뉴스, 소셜 미디어 및 전자책을 결합한 핀란드어의 광범위한 데이터셋을 구축했습니다. 모델 사전 학습을 위해 두 가지 접근 방식을 취했습니다: 1) FinGPT라는 이름의 186M에서 13B 파라미터 규모의 일곱 개의 단일 언어 모델을 처음부터 학습시키고, 2) 다국어 BLOOM 모델의 사전 학습을 원래의 학습 데이터와 핀란드어 데이터를 혼합하여 계속 진행하여 1760억 파라미터 규모의 BLUUMI 모델을 생성했습니다. 모델 평가를 위해 핀란드어 작업을 포함한 BIG-bench 버전인 FIN-bench를 도입했습니다. 또한 독성과 편향성과 같은 다른 모델 품질도 평가했습니다. 우리의 모델과 도구는 https://turkunlp.org/gpt3-finnish에서 공개적으로 이용 가능합니다.
English
Large language models (LLMs) excel in many tasks in NLP and beyond, but most open models have very limited coverage of smaller languages and LLM work tends to focus on languages where nearly unlimited data is available for pretraining. In this work, we study the challenges of creating LLMs for Finnish, a language spoken by less than 0.1% of the world population. We compile an extensive dataset of Finnish combining web crawls, news, social media and eBooks. We pursue two approaches to pretrain models: 1) we train seven monolingual models from scratch (186M to 13B parameters) dubbed FinGPT, 2) we continue the pretraining of the multilingual BLOOM model on a mix of its original training data and Finnish, resulting in a 176 billion parameter model we call BLUUMI. For model evaluation, we introduce FIN-bench, a version of BIG-bench with Finnish tasks. We also assess other model qualities such as toxicity and bias. Our models and tools are openly available at https://turkunlp.org/gpt3-finnish.
PDF321December 15, 2024