CamemBERT 2.0: более умная французская языковая модель, доведенная до совершенства.
CamemBERT 2.0: A Smarter French Language Model Aged to Perfection
November 13, 2024
Авторы: Wissam Antoun, Francis Kulumba, Rian Touchent, Éric de la Clergerie, Benoît Sagot, Djamé Seddah
cs.AI
Аннотация
Французские языковые модели, такие как CamemBERT, широко приняты в различных отраслях для обработки естественного языка (NLP), причем модели, подобные CamemBERT, ежемесячно загружаются более чем 4 миллионов раз. Однако эти модели сталкиваются с вызовами из-за временного концептуального сдвига, когда устаревшие обучающие данные приводят к снижению производительности, особенно при работе с новыми темами и терминологией. Эта проблема подчеркивает необходимость обновленных моделей, отражающих текущие лингвистические тенденции. В данной статье мы представляем две новые версии базовой модели CamemBERT - CamemBERTav2 и CamemBERTv2, разработанные для решения этих вызовов. CamemBERTav2 основана на архитектуре DeBERTaV3 и использует цель обнаружения замененного токена (RTD) для лучшего контекстного понимания, в то время как CamemBERTv2 построена на RoBERTa, которая использует цель маскированного моделирования языка (MLM). Обе модели обучаются на значительно более крупном и более свежем наборе данных с более длинной длиной контекста и обновленным токенизатором, который улучшает производительность токенизации для французского языка. Мы оцениваем производительность этих моделей как на общедоступных задачах NLP, так и на прикладных областях, таких как задачи в медицинской сфере, демонстрируя их универсальность и эффективность в различных сценариях использования. Наши результаты показывают, что эти обновленные модели значительно превосходят своих предшественников, делая их ценными инструментами для современных систем NLP. Все наши новые модели, а также промежуточные контрольные точки, доступны для общего использования на Huggingface.
English
French language models, such as CamemBERT, have been widely adopted across
industries for natural language processing (NLP) tasks, with models like
CamemBERT seeing over 4 million downloads per month. However, these models face
challenges due to temporal concept drift, where outdated training data leads to
a decline in performance, especially when encountering new topics and
terminology. This issue emphasizes the need for updated models that reflect
current linguistic trends. In this paper, we introduce two new versions of the
CamemBERT base model-CamemBERTav2 and CamemBERTv2-designed to address these
challenges. CamemBERTav2 is based on the DeBERTaV3 architecture and makes use
of the Replaced Token Detection (RTD) objective for better contextual
understanding, while CamemBERTv2 is built on RoBERTa, which uses the Masked
Language Modeling (MLM) objective. Both models are trained on a significantly
larger and more recent dataset with longer context length and an updated
tokenizer that enhances tokenization performance for French. We evaluate the
performance of these models on both general-domain NLP tasks and
domain-specific applications, such as medical field tasks, demonstrating their
versatility and effectiveness across a range of use cases. Our results show
that these updated models vastly outperform their predecessors, making them
valuable tools for modern NLP systems. All our new models, as well as
intermediate checkpoints, are made openly available on Huggingface.Summary
AI-Generated Summary