ChatPaper.aiChatPaper

NeoBERT : Une nouvelle génération de BERT

NeoBERT: A Next-Generation BERT

February 26, 2025
Auteurs: Lola Le Breton, Quentin Fournier, Mariam El Mezouar, Sarath Chandar
cs.AI

Résumé

Les récentes innovations en matière d'architecture, de pré-entraînement et de réglage fin ont conduit à des capacités remarquables d'apprentissage et de raisonnement en contexte pour les grands modèles de langage auto-régressifs tels que LLaMA et DeepSeek. En revanche, les encodeurs comme BERT et RoBERTa n'ont pas connu le même niveau de progrès, bien qu'ils soient fondamentaux pour de nombreuses applications en TAL en aval. Pour combler cet écart, nous introduisons NeoBERT, un encodeur de nouvelle génération qui redéfinit les capacités des modèles bidirectionnels en intégrant les avancées de pointe en architecture, des données modernes et des méthodologies de pré-entraînement optimisées. NeoBERT est conçu pour une adoption fluide : il sert de remplacement plug-and-play pour les modèles de base existants, repose sur un ratio profondeur-largeur optimal et exploite une longueur de contexte étendue de 4 096 tokens. Malgré son empreinte compacte de 250 millions de paramètres, il atteint des résultats de pointe sur le benchmark massif MTEB, surpassant BERT large, RoBERTa large, NomicBERT et ModernBERT dans des conditions de réglage fin identiques. De plus, nous évaluons rigoureusement l'impact de chaque modification sur GLUE et concevons un cadre uniforme de réglage fin et d'évaluation pour MTEB. Nous publions l'intégralité du code, des données, des points de contrôle et des scripts d'entraînement pour accélérer la recherche et l'adoption dans le monde réel.
English
Recent innovations in architecture, pre-training, and fine-tuning have led to the remarkable in-context learning and reasoning abilities of large auto-regressive language models such as LLaMA and DeepSeek. In contrast, encoders like BERT and RoBERTa have not seen the same level of progress despite being foundational for many downstream NLP applications. To bridge this gap, we introduce NeoBERT, a next-generation encoder that redefines the capabilities of bidirectional models by integrating state-of-the-art advancements in architecture, modern data, and optimized pre-training methodologies. NeoBERT is designed for seamless adoption: it serves as a plug-and-play replacement for existing base models, relies on an optimal depth-to-width ratio, and leverages an extended context length of 4,096 tokens. Despite its compact 250M parameter footprint, it achieves state-of-the-art results on the massive MTEB benchmark, outperforming BERT large, RoBERTa large, NomicBERT, and ModernBERT under identical fine-tuning conditions. In addition, we rigorously evaluate the impact of each modification on GLUE and design a uniform fine-tuning and evaluation framework for MTEB. We release all code, data, checkpoints, and training scripts to accelerate research and real-world adoption.

Summary

AI-Generated Summary

PDF396February 28, 2025