CroissantLLM: 진정한 프랑스어-영어 이중 언어 모델
CroissantLLM: A Truly Bilingual French-English Language Model
February 1, 2024
저자: Manuel Faysse, Patrick Fernandes, Nuno Guerreiro, António Loison, Duarte Alves, Caio Corro, Nicolas Boizard, João Alves, Ricardo Rei, Pedro Martins, Antoni Bigata Casademunt, François Yvon, André Martins, Gautier Viaud, Céline Hudelot, Pierre Colombo
cs.AI
초록
우리는 3조 개의 영어와 프랑스어 토큰으로 사전 학습된 1.3B 크기의 언어 모델인 CroissantLLM을 소개하여, 연구 및 산업계에 고성능이면서도 완전히 오픈 소스로 제공되는 양국어 모델을 제공하고자 한다. 이 모델은 소비자용 로컬 하드웨어에서도 빠르게 실행될 수 있다. 이를 위해, 우리는 1:1의 영어-프랑스어 사전 학습 데이터 비율, 맞춤형 토크나이저, 그리고 양국어 미세 조정 데이터셋을 사용하여 본질적으로 양국어 모델을 훈련하는 접근 방식을 선구적으로 도입하였다. 우리는 특히 수동으로 선별된 고품질의 다양한 데이터 소스를 포함한 프랑스어 분할을 포함한 훈련 데이터셋을 공개한다. 영어 외의 언어에서의 성능을 평가하기 위해, 우리는 프랑스어에서 모델 성능의 다양한 직교적 측면을 다루는 분류 및 생성 작업으로 구성된 새로운 벤치마크인 FrenchBench를 제작하였다. 또한, 투명성을 기반으로 더 큰 언어 모델 연구를 촉진하기 위해, 우리는 코드베이스와 다양한 모델 크기, 훈련 데이터 분포, 훈련 단계에 걸친 수십 개의 체크포인트, 그리고 미세 조정된 채팅 모델과 강력한 번역 모델을 공개한다. 우리는 FMTI 프레임워크를 통해 모델을 평가하고, 투명성 기준의 81%를 검증하여 대부분의 오픈 이니셔티브를 훨씬 뛰어넘는 점수를 기록하였다. 이 작업은 이전의 영어 중심 작업에서 벗어나 NLP 환경을 풍부하게 하고, 언어 모델에서의 다국어성에 대한 이해를 강화한다.
English
We introduce CroissantLLM, a 1.3B language model pretrained on a set of 3T
English and French tokens, to bring to the research and industrial community a
high-performance, fully open-sourced bilingual model that runs swiftly on
consumer-grade local hardware. To that end, we pioneer the approach of training
an intrinsically bilingual model with a 1:1 English-to-French pretraining data
ratio, a custom tokenizer, and bilingual finetuning datasets. We release the
training dataset, notably containing a French split with manually curated,
high-quality, and varied data sources. To assess performance outside of
English, we craft a novel benchmark, FrenchBench, consisting of an array of
classification and generation tasks, covering various orthogonal aspects of
model performance in the French Language. Additionally, rooted in transparency
and to foster further Large Language Model research, we release codebases, and
dozens of checkpoints across various model sizes, training data distributions,
and training steps, as well as fine-tuned Chat models, and strong translation
models. We evaluate our model through the FMTI framework, and validate 81 % of
the transparency criteria, far beyond the scores of even most open initiatives.
This work enriches the NLP landscape, breaking away from previous
English-centric work in order to strengthen our understanding of
multilinguality in language models.