NeoBERT: Un BERT di Nuova Generazione
NeoBERT: A Next-Generation BERT
February 26, 2025
Autori: Lola Le Breton, Quentin Fournier, Mariam El Mezouar, Sarath Chandar
cs.AI
Abstract
Le recenti innovazioni nell'architettura, nel pre-training e nel fine-tuning hanno portato a straordinarie capacità di apprendimento contestuale e ragionamento nei grandi modelli linguistici auto-regressivi come LLaMA e DeepSeek. Al contrario, gli encoder come BERT e RoBERTa non hanno visto lo stesso livello di progresso, nonostante siano fondamentali per molte applicazioni NLP downstream. Per colmare questa lacuna, introduciamo NeoBERT, un encoder di nuova generazione che ridefinisce le capacità dei modelli bidirezionali integrando i più recenti progressi nell'architettura, dati moderni e metodologie di pre-training ottimizzate. NeoBERT è progettato per un'adozione immediata: funge da sostituto plug-and-play per i modelli base esistenti, si basa su un rapporto ottimale tra profondità e larghezza e sfrutta una lunghezza contestuale estesa di 4.096 token. Nonostante la sua impronta compatta di 250 milioni di parametri, raggiunge risultati all'avanguardia sul benchmark MTEB, superando BERT large, RoBERTa large, NomicBERT e ModernBERT in condizioni identiche di fine-tuning. Inoltre, valutiamo rigorosamente l'impatto di ciascuna modifica su GLUE e progettiamo un framework uniforme di fine-tuning e valutazione per MTEB. Rilasciamo tutto il codice, i dati, i checkpoint e gli script di training per accelerare la ricerca e l'adozione nel mondo reale.
English
Recent innovations in architecture, pre-training, and fine-tuning have led to
the remarkable in-context learning and reasoning abilities of large
auto-regressive language models such as LLaMA and DeepSeek. In contrast,
encoders like BERT and RoBERTa have not seen the same level of progress despite
being foundational for many downstream NLP applications. To bridge this gap, we
introduce NeoBERT, a next-generation encoder that redefines the capabilities of
bidirectional models by integrating state-of-the-art advancements in
architecture, modern data, and optimized pre-training methodologies. NeoBERT is
designed for seamless adoption: it serves as a plug-and-play replacement for
existing base models, relies on an optimal depth-to-width ratio, and leverages
an extended context length of 4,096 tokens. Despite its compact 250M parameter
footprint, it achieves state-of-the-art results on the massive MTEB benchmark,
outperforming BERT large, RoBERTa large, NomicBERT, and ModernBERT under
identical fine-tuning conditions. In addition, we rigorously evaluate the
impact of each modification on GLUE and design a uniform fine-tuning and
evaluation framework for MTEB. We release all code, data, checkpoints, and
training scripts to accelerate research and real-world adoption.Summary
AI-Generated Summary