CroissantLLM: Ein wahrhaft zweisprachiges französisch-englisches Sprachmodell
CroissantLLM: A Truly Bilingual French-English Language Model
February 1, 2024
Autoren: Manuel Faysse, Patrick Fernandes, Nuno Guerreiro, António Loison, Duarte Alves, Caio Corro, Nicolas Boizard, João Alves, Ricardo Rei, Pedro Martins, Antoni Bigata Casademunt, François Yvon, André Martins, Gautier Viaud, Céline Hudelot, Pierre Colombo
cs.AI
Zusammenfassung
Wir stellen CroissantLLM vor, ein 1,3B großes Sprachmodell, das auf einem Korpus von 3T englischen und französischen Tokens vortrainiert wurde, um der Forschungs- und Industriegemeinschaft ein leistungsstarkes, vollständig quelloffenes zweisprachiges Modell zu bieten, das schnell auf handelsüblicher lokaler Hardware läuft. Zu diesem Zweck entwickeln wir einen innovativen Ansatz, bei dem ein intrinsisch zweisprachiges Modell mit einem 1:1-Verhältnis von englischen zu französischen Vortrainingsdaten, einem speziell angepassten Tokenizer und zweisprachigen Feinabstimmungsdatensätzen trainiert wird. Wir veröffentlichen den Trainingsdatensatz, der insbesondere einen französischen Anteil mit manuell kuratierten, hochwertigen und vielfältigen Datenquellen enthält. Um die Leistung außerhalb des Englischen zu bewerten, entwickeln wir einen neuartigen Benchmark, FrenchBench, der eine Reihe von Klassifikations- und Generierungsaufgaben umfasst und verschiedene orthogonale Aspekte der Modellleistung in der französischen Sprache abdeckt. Darüber hinaus veröffentlichen wir, basierend auf Transparenz und zur Förderung weiterer Forschung im Bereich großer Sprachmodelle, Codebasen sowie Dutzende von Checkpoints in verschiedenen Modellgrößen, Trainingsdatenverteilungen und Trainingsschritten, sowie feinabgestimmte Chat-Modelle und leistungsstarke Übersetzungsmodelle. Wir bewerten unser Modell anhand des FMTI-Rahmens und validieren 81 % der Transparenzkriterien, weit über den Werten der meisten offenen Initiativen. Diese Arbeit bereichert die NLP-Landschaft, indem sie sich von bisherigen englischzentrierten Ansätzen abwendet, um unser Verständnis von Mehrsprachigkeit in Sprachmodellen zu stärken.
English
We introduce CroissantLLM, a 1.3B language model pretrained on a set of 3T
English and French tokens, to bring to the research and industrial community a
high-performance, fully open-sourced bilingual model that runs swiftly on
consumer-grade local hardware. To that end, we pioneer the approach of training
an intrinsically bilingual model with a 1:1 English-to-French pretraining data
ratio, a custom tokenizer, and bilingual finetuning datasets. We release the
training dataset, notably containing a French split with manually curated,
high-quality, and varied data sources. To assess performance outside of
English, we craft a novel benchmark, FrenchBench, consisting of an array of
classification and generation tasks, covering various orthogonal aspects of
model performance in the French Language. Additionally, rooted in transparency
and to foster further Large Language Model research, we release codebases, and
dozens of checkpoints across various model sizes, training data distributions,
and training steps, as well as fine-tuned Chat models, and strong translation
models. We evaluate our model through the FMTI framework, and validate 81 % of
the transparency criteria, far beyond the scores of even most open initiatives.
This work enriches the NLP landscape, breaking away from previous
English-centric work in order to strengthen our understanding of
multilinguality in language models.