CroissantLLM: Un Modello Linguistico Veramente Bilingue Francese-Inglese

Abstract

Presentiamo CroissantLLM, un modello linguistico da 1,3 miliardi di parametri preaddestrato su un insieme di 3 trilioni di token in inglese e francese, con l'obiettivo di offrire alla comunità di ricerca e industriale un modello bilingue ad alte prestazioni, completamente open-source, in grado di funzionare rapidamente su hardware locale di livello consumer. A tal fine, abbiamo introdotto un approccio innovativo che prevede l'addestramento di un modello intrinsecamente bilingue con un rapporto 1:1 tra dati di preaddestramento in inglese e francese, un tokenizer personalizzato e dataset di fine-tuning bilingue. Rilasciamo il dataset di addestramento, che include una sezione in francese con fonti di dati di alta qualità, variate e curate manualmente. Per valutare le prestazioni al di fuori dell'inglese, abbiamo creato un nuovo benchmark, FrenchBench, composto da una serie di task di classificazione e generazione, che coprono vari aspetti ortogonali delle prestazioni del modello nella lingua francese. Inoltre, nell'ottica della trasparenza e per promuovere ulteriori ricerche sui Large Language Model, rilasciamo codebase, decine di checkpoint relativi a diverse dimensioni del modello, distribuzioni dei dati di addestramento e fasi di training, nonché modelli Chat fine-tuned e robusti modelli di traduzione. Valutiamo il nostro modello attraverso il framework FMTI, convalidando l'81% dei criteri di trasparenza, un risultato che supera di gran lunga anche i punteggi delle iniziative più aperte. Questo lavoro arricchisce il panorama dell'NLP, distaccandosi dai precedenti lavori centrati sull'inglese per rafforzare la nostra comprensione della multilinguità nei modelli linguistici.

English

We introduce CroissantLLM, a 1.3B language model pretrained on a set of 3T English and French tokens, to bring to the research and industrial community a high-performance, fully open-sourced bilingual model that runs swiftly on consumer-grade local hardware. To that end, we pioneer the approach of training an intrinsically bilingual model with a 1:1 English-to-French pretraining data ratio, a custom tokenizer, and bilingual finetuning datasets. We release the training dataset, notably containing a French split with manually curated, high-quality, and varied data sources. To assess performance outside of English, we craft a novel benchmark, FrenchBench, consisting of an array of classification and generation tasks, covering various orthogonal aspects of model performance in the French Language. Additionally, rooted in transparency and to foster further Large Language Model research, we release codebases, and dozens of checkpoints across various model sizes, training data distributions, and training steps, as well as fine-tuned Chat models, and strong translation models. We evaluate our model through the FMTI framework, and validate 81 % of the transparency criteria, far beyond the scores of even most open initiatives. This work enriches the NLP landscape, breaking away from previous English-centric work in order to strengthen our understanding of multilinguality in language models.

CroissantLLM: Un Modello Linguistico Veramente Bilingue Francese-Inglese

CroissantLLM: A Truly Bilingual French-English Language Model

Abstract

Support