NeoBERT : Une nouvelle génération de BERT
NeoBERT: A Next-Generation BERT
February 26, 2025
Auteurs: Lola Le Breton, Quentin Fournier, Mariam El Mezouar, Sarath Chandar
cs.AI
Résumé
Les récentes innovations en matière d'architecture, de pré-entraînement et de réglage fin ont conduit à des capacités remarquables d'apprentissage et de raisonnement en contexte pour les grands modèles de langage auto-régressifs tels que LLaMA et DeepSeek. En revanche, les encodeurs comme BERT et RoBERTa n'ont pas connu le même niveau de progrès, bien qu'ils soient fondamentaux pour de nombreuses applications en TAL en aval. Pour combler cet écart, nous introduisons NeoBERT, un encodeur de nouvelle génération qui redéfinit les capacités des modèles bidirectionnels en intégrant les avancées de pointe en architecture, des données modernes et des méthodologies de pré-entraînement optimisées. NeoBERT est conçu pour une adoption fluide : il sert de remplacement plug-and-play pour les modèles de base existants, repose sur un ratio profondeur-largeur optimal et exploite une longueur de contexte étendue de 4 096 tokens. Malgré son empreinte compacte de 250 millions de paramètres, il atteint des résultats de pointe sur le benchmark massif MTEB, surpassant BERT large, RoBERTa large, NomicBERT et ModernBERT dans des conditions de réglage fin identiques. De plus, nous évaluons rigoureusement l'impact de chaque modification sur GLUE et concevons un cadre uniforme de réglage fin et d'évaluation pour MTEB. Nous publions l'intégralité du code, des données, des points de contrôle et des scripts d'entraînement pour accélérer la recherche et l'adoption dans le monde réel.
English
Recent innovations in architecture, pre-training, and fine-tuning have led to
the remarkable in-context learning and reasoning abilities of large
auto-regressive language models such as LLaMA and DeepSeek. In contrast,
encoders like BERT and RoBERTa have not seen the same level of progress despite
being foundational for many downstream NLP applications. To bridge this gap, we
introduce NeoBERT, a next-generation encoder that redefines the capabilities of
bidirectional models by integrating state-of-the-art advancements in
architecture, modern data, and optimized pre-training methodologies. NeoBERT is
designed for seamless adoption: it serves as a plug-and-play replacement for
existing base models, relies on an optimal depth-to-width ratio, and leverages
an extended context length of 4,096 tokens. Despite its compact 250M parameter
footprint, it achieves state-of-the-art results on the massive MTEB benchmark,
outperforming BERT large, RoBERTa large, NomicBERT, and ModernBERT under
identical fine-tuning conditions. In addition, we rigorously evaluate the
impact of each modification on GLUE and design a uniform fine-tuning and
evaluation framework for MTEB. We release all code, data, checkpoints, and
training scripts to accelerate research and real-world adoption.Summary
AI-Generated Summary