ChatPaper.aiChatPaper

CamemBERT 2.0: более умная французская языковая модель, доведенная до совершенства.

CamemBERT 2.0: A Smarter French Language Model Aged to Perfection

November 13, 2024
Авторы: Wissam Antoun, Francis Kulumba, Rian Touchent, Éric de la Clergerie, Benoît Sagot, Djamé Seddah
cs.AI

Аннотация

Французские языковые модели, такие как CamemBERT, широко приняты в различных отраслях для обработки естественного языка (NLP), причем модели, подобные CamemBERT, ежемесячно загружаются более чем 4 миллионов раз. Однако эти модели сталкиваются с вызовами из-за временного концептуального сдвига, когда устаревшие обучающие данные приводят к снижению производительности, особенно при работе с новыми темами и терминологией. Эта проблема подчеркивает необходимость обновленных моделей, отражающих текущие лингвистические тенденции. В данной статье мы представляем две новые версии базовой модели CamemBERT - CamemBERTav2 и CamemBERTv2, разработанные для решения этих вызовов. CamemBERTav2 основана на архитектуре DeBERTaV3 и использует цель обнаружения замененного токена (RTD) для лучшего контекстного понимания, в то время как CamemBERTv2 построена на RoBERTa, которая использует цель маскированного моделирования языка (MLM). Обе модели обучаются на значительно более крупном и более свежем наборе данных с более длинной длиной контекста и обновленным токенизатором, который улучшает производительность токенизации для французского языка. Мы оцениваем производительность этих моделей как на общедоступных задачах NLP, так и на прикладных областях, таких как задачи в медицинской сфере, демонстрируя их универсальность и эффективность в различных сценариях использования. Наши результаты показывают, что эти обновленные модели значительно превосходят своих предшественников, делая их ценными инструментами для современных систем NLP. Все наши новые модели, а также промежуточные контрольные точки, доступны для общего использования на Huggingface.
English
French language models, such as CamemBERT, have been widely adopted across industries for natural language processing (NLP) tasks, with models like CamemBERT seeing over 4 million downloads per month. However, these models face challenges due to temporal concept drift, where outdated training data leads to a decline in performance, especially when encountering new topics and terminology. This issue emphasizes the need for updated models that reflect current linguistic trends. In this paper, we introduce two new versions of the CamemBERT base model-CamemBERTav2 and CamemBERTv2-designed to address these challenges. CamemBERTav2 is based on the DeBERTaV3 architecture and makes use of the Replaced Token Detection (RTD) objective for better contextual understanding, while CamemBERTv2 is built on RoBERTa, which uses the Masked Language Modeling (MLM) objective. Both models are trained on a significantly larger and more recent dataset with longer context length and an updated tokenizer that enhances tokenization performance for French. We evaluate the performance of these models on both general-domain NLP tasks and domain-specific applications, such as medical field tasks, demonstrating their versatility and effectiveness across a range of use cases. Our results show that these updated models vastly outperform their predecessors, making them valuable tools for modern NLP systems. All our new models, as well as intermediate checkpoints, are made openly available on Huggingface.

Summary

AI-Generated Summary

PDF139November 14, 2024