ChatPaper.aiChatPaper

포로 34B와 다국어성의 축복

Poro 34B and the Blessing of Multilinguality

April 2, 2024
저자: Risto Luukkonen, Jonathan Burdge, Elaine Zosa, Aarne Talman, Ville Komulainen, Väinö Hatanpää, Peter Sarlin, Sampo Pyysalo
cs.AI

초록

최첨단 대규모 언어 모델의 사전 학습에는 이제 수조 단위의 텍스트가 필요하며, 이는 대다수 언어에서 사용 가능한 데이터보다 몇 차례 더 많은 양입니다. 여러 언어의 텍스트를 포함하는 것은 더 많은 사전 학습 데이터를 확보하는 명백한 방법이지만, 다국어성은 종종 저주로 여겨지며, 대부분의 모델 학습 노력은 여전히 개별 대형 언어에 거의 전적으로 집중하고 있습니다. 우리는 다국어성이 축복이 될 수 있으며, 다국어 학습을 통해 소규모 언어에 대한 단일 언어 모델의 능력을 크게 향상시킬 수 있어야 한다고 믿습니다. 본 연구에서는 핀란드어, 영어 및 프로그래밍 언어로 1조 토큰을 학습한 340억 개의 파라미터를 가진 Poro 34B 모델을 소개하고, 다국어 학습 접근 방식이 핀란드어에 대한 기존 모델의 능력을 크게 앞서는 것은 물론 번역에서도 뛰어나며, 영어 및 프로그래밍 언어 생성에서도 해당 클래스에서 경쟁력 있는 모델을 생산할 수 있음을 입증합니다. 우리는 모델 파라미터, 스크립트 및 데이터를 오픈 라이선스로 https://huggingface.co/LumiOpen/Poro-34B에서 공개합니다.
English
The pretraining of state-of-the-art large language models now requires trillions of words of text, which is orders of magnitude more than available for the vast majority of languages. While including text in more than one language is an obvious way to acquire more pretraining data, multilinguality is often seen as a curse, and most model training efforts continue to focus near-exclusively on individual large languages. We believe that multilinguality can be a blessing and that it should be possible to substantially improve over the capabilities of monolingual models for small languages through multilingual training. In this study, we introduce Poro 34B, a 34 billion parameter model trained for 1 trillion tokens of Finnish, English, and programming languages, and demonstrate that a multilingual training approach can produce a model that not only substantially advances over the capabilities of existing models for Finnish, but also excels in translation and is competitive in its class in generating English and programming languages. We release the model parameters, scripts, and data under open licenses at https://huggingface.co/LumiOpen/Poro-34B.

Summary

AI-Generated Summary

PDF161November 26, 2024