ChatPaper.aiChatPaper

CamemBERT 2.0: Un modelo de lenguaje en francés más inteligente madurado a la perfección

CamemBERT 2.0: A Smarter French Language Model Aged to Perfection

November 13, 2024
Autores: Wissam Antoun, Francis Kulumba, Rian Touchent, Éric de la Clergerie, Benoît Sagot, Djamé Seddah
cs.AI

Resumen

Los modelos de lenguaje en francés, como CamemBERT, han sido ampliamente adoptados en diversas industrias para tareas de procesamiento del lenguaje natural (NLP), con modelos como CamemBERT alcanzando más de 4 millones de descargas al mes. Sin embargo, estos modelos enfrentan desafíos debido a la deriva temporal de conceptos, donde los datos de entrenamiento desactualizados conducen a una disminución en el rendimiento, especialmente al encontrarse con temas y terminología nuevos. Este problema enfatiza la necesidad de modelos actualizados que reflejen las tendencias lingüísticas actuales. En este artículo, presentamos dos nuevas versiones del modelo base CamemBERT -CamemBERTav2 y CamemBERTv2- diseñadas para abordar estos desafíos. CamemBERTav2 se basa en la arquitectura DeBERTaV3 y utiliza el objetivo de Detección de Token Reemplazado (RTD) para una mejor comprensión contextual, mientras que CamemBERTv2 se construye sobre RoBERTa, que utiliza el objetivo de Modelado de Lenguaje Enmascarado (MLM). Ambos modelos se entrenan en un conjunto de datos significativamente más grande y reciente, con una longitud de contexto más extensa y un tokenizador actualizado que mejora el rendimiento de tokenización para el francés. Evaluamos el rendimiento de estos modelos tanto en tareas de NLP de dominio general como en aplicaciones específicas de dominio, como tareas en el campo médico, demostrando su versatilidad y efectividad en una variedad de casos de uso. Nuestros resultados muestran que estos modelos actualizados superan ampliamente a sus predecesores, convirtiéndolos en herramientas valiosas para los sistemas modernos de NLP. Todos nuestros nuevos modelos, así como los puntos de control intermedios, están disponibles públicamente en Huggingface.
English
French language models, such as CamemBERT, have been widely adopted across industries for natural language processing (NLP) tasks, with models like CamemBERT seeing over 4 million downloads per month. However, these models face challenges due to temporal concept drift, where outdated training data leads to a decline in performance, especially when encountering new topics and terminology. This issue emphasizes the need for updated models that reflect current linguistic trends. In this paper, we introduce two new versions of the CamemBERT base model-CamemBERTav2 and CamemBERTv2-designed to address these challenges. CamemBERTav2 is based on the DeBERTaV3 architecture and makes use of the Replaced Token Detection (RTD) objective for better contextual understanding, while CamemBERTv2 is built on RoBERTa, which uses the Masked Language Modeling (MLM) objective. Both models are trained on a significantly larger and more recent dataset with longer context length and an updated tokenizer that enhances tokenization performance for French. We evaluate the performance of these models on both general-domain NLP tasks and domain-specific applications, such as medical field tasks, demonstrating their versatility and effectiveness across a range of use cases. Our results show that these updated models vastly outperform their predecessors, making them valuable tools for modern NLP systems. All our new models, as well as intermediate checkpoints, are made openly available on Huggingface.

Summary

AI-Generated Summary

PDF139November 14, 2024