NeoBERT: Un BERT di Nuova Generazione

Abstract

Le recenti innovazioni nell'architettura, nel pre-training e nel fine-tuning hanno portato a straordinarie capacità di apprendimento contestuale e ragionamento nei grandi modelli linguistici auto-regressivi come LLaMA e DeepSeek. Al contrario, gli encoder come BERT e RoBERTa non hanno visto lo stesso livello di progresso, nonostante siano fondamentali per molte applicazioni NLP downstream. Per colmare questa lacuna, introduciamo NeoBERT, un encoder di nuova generazione che ridefinisce le capacità dei modelli bidirezionali integrando i più recenti progressi nell'architettura, dati moderni e metodologie di pre-training ottimizzate. NeoBERT è progettato per un'adozione immediata: funge da sostituto plug-and-play per i modelli base esistenti, si basa su un rapporto ottimale tra profondità e larghezza e sfrutta una lunghezza contestuale estesa di 4.096 token. Nonostante la sua impronta compatta di 250 milioni di parametri, raggiunge risultati all'avanguardia sul benchmark MTEB, superando BERT large, RoBERTa large, NomicBERT e ModernBERT in condizioni identiche di fine-tuning. Inoltre, valutiamo rigorosamente l'impatto di ciascuna modifica su GLUE e progettiamo un framework uniforme di fine-tuning e valutazione per MTEB. Rilasciamo tutto il codice, i dati, i checkpoint e gli script di training per accelerare la ricerca e l'adozione nel mondo reale.

English

Recent innovations in architecture, pre-training, and fine-tuning have led to the remarkable in-context learning and reasoning abilities of large auto-regressive language models such as LLaMA and DeepSeek. In contrast, encoders like BERT and RoBERTa have not seen the same level of progress despite being foundational for many downstream NLP applications. To bridge this gap, we introduce NeoBERT, a next-generation encoder that redefines the capabilities of bidirectional models by integrating state-of-the-art advancements in architecture, modern data, and optimized pre-training methodologies. NeoBERT is designed for seamless adoption: it serves as a plug-and-play replacement for existing base models, relies on an optimal depth-to-width ratio, and leverages an extended context length of 4,096 tokens. Despite its compact 250M parameter footprint, it achieves state-of-the-art results on the massive MTEB benchmark, outperforming BERT large, RoBERTa large, NomicBERT, and ModernBERT under identical fine-tuning conditions. In addition, we rigorously evaluate the impact of each modification on GLUE and design a uniform fine-tuning and evaluation framework for MTEB. We release all code, data, checkpoints, and training scripts to accelerate research and real-world adoption.

NeoBERT: Un BERT di Nuova Generazione

NeoBERT: A Next-Generation BERT

Abstract

Support