ChatPaper.aiChatPaper

CroissantLLM: Ein wahrhaft zweisprachiges französisch-englisches Sprachmodell

CroissantLLM: A Truly Bilingual French-English Language Model

February 1, 2024
Autoren: Manuel Faysse, Patrick Fernandes, Nuno Guerreiro, António Loison, Duarte Alves, Caio Corro, Nicolas Boizard, João Alves, Ricardo Rei, Pedro Martins, Antoni Bigata Casademunt, François Yvon, André Martins, Gautier Viaud, Céline Hudelot, Pierre Colombo
cs.AI

Zusammenfassung

Wir stellen CroissantLLM vor, ein 1,3B großes Sprachmodell, das auf einem Korpus von 3T englischen und französischen Tokens vortrainiert wurde, um der Forschungs- und Industriegemeinschaft ein leistungsstarkes, vollständig quelloffenes zweisprachiges Modell zu bieten, das schnell auf handelsüblicher lokaler Hardware läuft. Zu diesem Zweck entwickeln wir einen innovativen Ansatz, bei dem ein intrinsisch zweisprachiges Modell mit einem 1:1-Verhältnis von englischen zu französischen Vortrainingsdaten, einem speziell angepassten Tokenizer und zweisprachigen Feinabstimmungsdatensätzen trainiert wird. Wir veröffentlichen den Trainingsdatensatz, der insbesondere einen französischen Anteil mit manuell kuratierten, hochwertigen und vielfältigen Datenquellen enthält. Um die Leistung außerhalb des Englischen zu bewerten, entwickeln wir einen neuartigen Benchmark, FrenchBench, der eine Reihe von Klassifikations- und Generierungsaufgaben umfasst und verschiedene orthogonale Aspekte der Modellleistung in der französischen Sprache abdeckt. Darüber hinaus veröffentlichen wir, basierend auf Transparenz und zur Förderung weiterer Forschung im Bereich großer Sprachmodelle, Codebasen sowie Dutzende von Checkpoints in verschiedenen Modellgrößen, Trainingsdatenverteilungen und Trainingsschritten, sowie feinabgestimmte Chat-Modelle und leistungsstarke Übersetzungsmodelle. Wir bewerten unser Modell anhand des FMTI-Rahmens und validieren 81 % der Transparenzkriterien, weit über den Werten der meisten offenen Initiativen. Diese Arbeit bereichert die NLP-Landschaft, indem sie sich von bisherigen englischzentrierten Ansätzen abwendet, um unser Verständnis von Mehrsprachigkeit in Sprachmodellen zu stärken.
English
We introduce CroissantLLM, a 1.3B language model pretrained on a set of 3T English and French tokens, to bring to the research and industrial community a high-performance, fully open-sourced bilingual model that runs swiftly on consumer-grade local hardware. To that end, we pioneer the approach of training an intrinsically bilingual model with a 1:1 English-to-French pretraining data ratio, a custom tokenizer, and bilingual finetuning datasets. We release the training dataset, notably containing a French split with manually curated, high-quality, and varied data sources. To assess performance outside of English, we craft a novel benchmark, FrenchBench, consisting of an array of classification and generation tasks, covering various orthogonal aspects of model performance in the French Language. Additionally, rooted in transparency and to foster further Large Language Model research, we release codebases, and dozens of checkpoints across various model sizes, training data distributions, and training steps, as well as fine-tuned Chat models, and strong translation models. We evaluate our model through the FMTI framework, and validate 81 % of the transparency criteria, far beyond the scores of even most open initiatives. This work enriches the NLP landscape, breaking away from previous English-centric work in order to strengthen our understanding of multilinguality in language models.
PDF273December 15, 2024