CamemBERT 2.0: Um Modelo de Linguagem em Francês Mais Inteligente Envelhecido à Perfeição
CamemBERT 2.0: A Smarter French Language Model Aged to Perfection
November 13, 2024
Autores: Wissam Antoun, Francis Kulumba, Rian Touchent, Éric de la Clergerie, Benoît Sagot, Djamé Seddah
cs.AI
Resumo
Os modelos de linguagem franceses, como o CamemBERT, têm sido amplamente adotados em diversas indústrias para tarefas de processamento de linguagem natural (PLN), com modelos como o CamemBERT alcançando mais de 4 milhões de downloads por mês. No entanto, esses modelos enfrentam desafios devido à deriva temporal de conceitos, onde dados de treinamento desatualizados levam a uma queda de desempenho, especialmente ao lidar com tópicos e terminologia novos. Esse problema destaca a necessidade de modelos atualizados que reflitam as tendências linguísticas atuais. Neste artigo, apresentamos duas novas versões do modelo base CamemBERT - CamemBERTav2 e CamemBERTv2 - projetadas para enfrentar esses desafios. O CamemBERTav2 é baseado na arquitetura DeBERTaV3 e faz uso do objetivo de Detecção de Token Substituído (RTD) para uma melhor compreensão contextual, enquanto o CamemBERTv2 é construído sobre o RoBERTa, que utiliza o objetivo de Modelagem de Linguagem Mascara (MLM). Ambos os modelos são treinados em um conjunto de dados significativamente maior e mais recente, com um comprimento de contexto mais longo e um tokenizador atualizado que aprimora o desempenho de tokenização para o francês. Avaliamos o desempenho desses modelos em tarefas de PLN de domínio geral e aplicações específicas de domínio, como tarefas no campo médico, demonstrando sua versatilidade e eficácia em uma variedade de casos de uso. Nossos resultados mostram que esses modelos atualizados superam significativamente seus predecessores, tornando-os ferramentas valiosas para sistemas modernos de PLN. Todos os nossos novos modelos, bem como checkpoints intermediários, estão disponíveis abertamente no Huggingface.
English
French language models, such as CamemBERT, have been widely adopted across
industries for natural language processing (NLP) tasks, with models like
CamemBERT seeing over 4 million downloads per month. However, these models face
challenges due to temporal concept drift, where outdated training data leads to
a decline in performance, especially when encountering new topics and
terminology. This issue emphasizes the need for updated models that reflect
current linguistic trends. In this paper, we introduce two new versions of the
CamemBERT base model-CamemBERTav2 and CamemBERTv2-designed to address these
challenges. CamemBERTav2 is based on the DeBERTaV3 architecture and makes use
of the Replaced Token Detection (RTD) objective for better contextual
understanding, while CamemBERTv2 is built on RoBERTa, which uses the Masked
Language Modeling (MLM) objective. Both models are trained on a significantly
larger and more recent dataset with longer context length and an updated
tokenizer that enhances tokenization performance for French. We evaluate the
performance of these models on both general-domain NLP tasks and
domain-specific applications, such as medical field tasks, demonstrating their
versatility and effectiveness across a range of use cases. Our results show
that these updated models vastly outperform their predecessors, making them
valuable tools for modern NLP systems. All our new models, as well as
intermediate checkpoints, are made openly available on Huggingface.