CroissantLLM: Un Modello Linguistico Veramente Bilingue Francese-Inglese
CroissantLLM: A Truly Bilingual French-English Language Model
February 1, 2024
Autori: Manuel Faysse, Patrick Fernandes, Nuno Guerreiro, António Loison, Duarte Alves, Caio Corro, Nicolas Boizard, João Alves, Ricardo Rei, Pedro Martins, Antoni Bigata Casademunt, François Yvon, André Martins, Gautier Viaud, Céline Hudelot, Pierre Colombo
cs.AI
Abstract
Presentiamo CroissantLLM, un modello linguistico da 1,3 miliardi di parametri preaddestrato su un insieme di 3 trilioni di token in inglese e francese, con l'obiettivo di offrire alla comunità di ricerca e industriale un modello bilingue ad alte prestazioni, completamente open-source, in grado di funzionare rapidamente su hardware locale di livello consumer. A tal fine, abbiamo introdotto un approccio innovativo che prevede l'addestramento di un modello intrinsecamente bilingue con un rapporto 1:1 tra dati di preaddestramento in inglese e francese, un tokenizer personalizzato e dataset di fine-tuning bilingue. Rilasciamo il dataset di addestramento, che include una sezione in francese con fonti di dati di alta qualità, variate e curate manualmente. Per valutare le prestazioni al di fuori dell'inglese, abbiamo creato un nuovo benchmark, FrenchBench, composto da una serie di task di classificazione e generazione, che coprono vari aspetti ortogonali delle prestazioni del modello nella lingua francese. Inoltre, nell'ottica della trasparenza e per promuovere ulteriori ricerche sui Large Language Model, rilasciamo codebase, decine di checkpoint relativi a diverse dimensioni del modello, distribuzioni dei dati di addestramento e fasi di training, nonché modelli Chat fine-tuned e robusti modelli di traduzione. Valutiamo il nostro modello attraverso il framework FMTI, convalidando l'81% dei criteri di trasparenza, un risultato che supera di gran lunga anche i punteggi delle iniziative più aperte. Questo lavoro arricchisce il panorama dell'NLP, distaccandosi dai precedenti lavori centrati sull'inglese per rafforzare la nostra comprensione della multilinguità nei modelli linguistici.
English
We introduce CroissantLLM, a 1.3B language model pretrained on a set of 3T
English and French tokens, to bring to the research and industrial community a
high-performance, fully open-sourced bilingual model that runs swiftly on
consumer-grade local hardware. To that end, we pioneer the approach of training
an intrinsically bilingual model with a 1:1 English-to-French pretraining data
ratio, a custom tokenizer, and bilingual finetuning datasets. We release the
training dataset, notably containing a French split with manually curated,
high-quality, and varied data sources. To assess performance outside of
English, we craft a novel benchmark, FrenchBench, consisting of an array of
classification and generation tasks, covering various orthogonal aspects of
model performance in the French Language. Additionally, rooted in transparency
and to foster further Large Language Model research, we release codebases, and
dozens of checkpoints across various model sizes, training data distributions,
and training steps, as well as fine-tuned Chat models, and strong translation
models. We evaluate our model through the FMTI framework, and validate 81 % of
the transparency criteria, far beyond the scores of even most open initiatives.
This work enriches the NLP landscape, breaking away from previous
English-centric work in order to strengthen our understanding of
multilinguality in language models.