NeoBERT: Een BERT van de volgende generatie
NeoBERT: A Next-Generation BERT
February 26, 2025
Auteurs: Lola Le Breton, Quentin Fournier, Mariam El Mezouar, Sarath Chandar
cs.AI
Samenvatting
Recente innovaties in architectuur, vooraf trainen en fijnafstemming hebben geleid tot opmerkelijke leermogelijkheden en redeneervermogens in context van grote autoregressieve taalmodellen zoals LLaMA en DeepSeek. In tegenstelling hiermee hebben encoders zoals BERT en RoBERTa niet hetzelfde niveau van vooruitgang gezien, ondanks dat ze fundamenteel zijn voor veel downstream NLP-toepassingen. Om deze kloof te overbruggen, introduceren we NeoBERT, een encoder van de volgende generatie die de mogelijkheden van bidirectionele modellen herdefinieert door de nieuwste ontwikkelingen in architectuur, moderne gegevens en geoptimaliseerde vooraf trainingsmethoden te integreren. NeoBERT is ontworpen voor naadloze adoptie: het dient als een plug-and-play vervanging voor bestaande basismodellen, vertrouwt op een optimale diepte-breedte verhouding en maakt gebruik van een verlengde contextlengte van 4.096 tokens. Ondanks zijn compacte 250M parameteromvang behaalt het state-of-the-art resultaten op de uitgebreide MTEB benchmark, waarbij het BERT large, RoBERTa large, NomicBERT en ModernBERT overtreft onder identieke fijnafstemmingsomstandigheden. Bovendien evalueren we grondig de impact van elke wijziging op GLUE en ontwerpen we een uniform fijnafstemmings- en evaluatiekader voor MTEB. We stellen alle code, gegevens, checkpoints en trainingscripts beschikbaar om onderzoek en adoptie in de praktijk te versnellen.
English
Recent innovations in architecture, pre-training, and fine-tuning have led to
the remarkable in-context learning and reasoning abilities of large
auto-regressive language models such as LLaMA and DeepSeek. In contrast,
encoders like BERT and RoBERTa have not seen the same level of progress despite
being foundational for many downstream NLP applications. To bridge this gap, we
introduce NeoBERT, a next-generation encoder that redefines the capabilities of
bidirectional models by integrating state-of-the-art advancements in
architecture, modern data, and optimized pre-training methodologies. NeoBERT is
designed for seamless adoption: it serves as a plug-and-play replacement for
existing base models, relies on an optimal depth-to-width ratio, and leverages
an extended context length of 4,096 tokens. Despite its compact 250M parameter
footprint, it achieves state-of-the-art results on the massive MTEB benchmark,
outperforming BERT large, RoBERTa large, NomicBERT, and ModernBERT under
identical fine-tuning conditions. In addition, we rigorously evaluate the
impact of each modification on GLUE and design a uniform fine-tuning and
evaluation framework for MTEB. We release all code, data, checkpoints, and
training scripts to accelerate research and real-world adoption.Summary
AI-Generated Summary