CroissantLLM: Um Modelo de Linguagem Verdadeiramente Bilíngue Francês-Inglês
CroissantLLM: A Truly Bilingual French-English Language Model
February 1, 2024
Autores: Manuel Faysse, Patrick Fernandes, Nuno Guerreiro, António Loison, Duarte Alves, Caio Corro, Nicolas Boizard, João Alves, Ricardo Rei, Pedro Martins, Antoni Bigata Casademunt, François Yvon, André Martins, Gautier Viaud, Céline Hudelot, Pierre Colombo
cs.AI
Resumo
Apresentamos o CroissantLLM, um modelo de linguagem de 1,3B de parâmetros pré-treinado em um conjunto de 3 trilhões de tokens em inglês e francês, com o objetivo de oferecer à comunidade de pesquisa e industrial um modelo bilíngue de alto desempenho, totalmente de código aberto, que opera de forma ágil em hardware local de nível consumidor. Para isso, pioneiramente adotamos a abordagem de treinar um modelo intrinsecamente bilíngue com uma proporção de dados de pré-treinamento de 1:1 entre inglês e francês, um tokenizador personalizado e conjuntos de dados de ajuste fino bilíngues. Disponibilizamos o conjunto de dados de treinamento, que inclui uma divisão em francês com fontes de dados variadas, de alta qualidade e curadas manualmente. Para avaliar o desempenho fora do inglês, criamos um novo benchmark, o FrenchBench, composto por uma variedade de tarefas de classificação e geração, abrangendo diversos aspectos ortogonais do desempenho do modelo no idioma francês. Além disso, fundamentados na transparência e para promover pesquisas adicionais em Modelos de Linguagem de Grande Escala (LLMs), disponibilizamos bases de código, dezenas de checkpoints em diferentes tamanhos de modelo, distribuições de dados de treinamento e etapas de treinamento, bem como modelos de Chat ajustados e modelos de tradução robustos. Avaliamos nosso modelo por meio do framework FMTI e validamos 81% dos critérios de transparência, superando significativamente até mesmo as pontuações das iniciativas mais abertas. Este trabalho enriquece o cenário de PLN, afastando-se de trabalhos anteriores centrados no inglês para fortalecer nossa compreensão da multilingüidade em modelos de linguagem.
English
We introduce CroissantLLM, a 1.3B language model pretrained on a set of 3T
English and French tokens, to bring to the research and industrial community a
high-performance, fully open-sourced bilingual model that runs swiftly on
consumer-grade local hardware. To that end, we pioneer the approach of training
an intrinsically bilingual model with a 1:1 English-to-French pretraining data
ratio, a custom tokenizer, and bilingual finetuning datasets. We release the
training dataset, notably containing a French split with manually curated,
high-quality, and varied data sources. To assess performance outside of
English, we craft a novel benchmark, FrenchBench, consisting of an array of
classification and generation tasks, covering various orthogonal aspects of
model performance in the French Language. Additionally, rooted in transparency
and to foster further Large Language Model research, we release codebases, and
dozens of checkpoints across various model sizes, training data distributions,
and training steps, as well as fine-tuned Chat models, and strong translation
models. We evaluate our model through the FMTI framework, and validate 81 % of
the transparency criteria, far beyond the scores of even most open initiatives.
This work enriches the NLP landscape, breaking away from previous
English-centric work in order to strengthen our understanding of
multilinguality in language models.