ChatPaper.aiChatPaper

NeoBERT: Een BERT van de volgende generatie

NeoBERT: A Next-Generation BERT

February 26, 2025
Auteurs: Lola Le Breton, Quentin Fournier, Mariam El Mezouar, Sarath Chandar
cs.AI

Samenvatting

Recente innovaties in architectuur, vooraf trainen en fijnafstemming hebben geleid tot opmerkelijke leermogelijkheden en redeneervermogens in context van grote autoregressieve taalmodellen zoals LLaMA en DeepSeek. In tegenstelling hiermee hebben encoders zoals BERT en RoBERTa niet hetzelfde niveau van vooruitgang gezien, ondanks dat ze fundamenteel zijn voor veel downstream NLP-toepassingen. Om deze kloof te overbruggen, introduceren we NeoBERT, een encoder van de volgende generatie die de mogelijkheden van bidirectionele modellen herdefinieert door de nieuwste ontwikkelingen in architectuur, moderne gegevens en geoptimaliseerde vooraf trainingsmethoden te integreren. NeoBERT is ontworpen voor naadloze adoptie: het dient als een plug-and-play vervanging voor bestaande basismodellen, vertrouwt op een optimale diepte-breedte verhouding en maakt gebruik van een verlengde contextlengte van 4.096 tokens. Ondanks zijn compacte 250M parameteromvang behaalt het state-of-the-art resultaten op de uitgebreide MTEB benchmark, waarbij het BERT large, RoBERTa large, NomicBERT en ModernBERT overtreft onder identieke fijnafstemmingsomstandigheden. Bovendien evalueren we grondig de impact van elke wijziging op GLUE en ontwerpen we een uniform fijnafstemmings- en evaluatiekader voor MTEB. We stellen alle code, gegevens, checkpoints en trainingscripts beschikbaar om onderzoek en adoptie in de praktijk te versnellen.
English
Recent innovations in architecture, pre-training, and fine-tuning have led to the remarkable in-context learning and reasoning abilities of large auto-regressive language models such as LLaMA and DeepSeek. In contrast, encoders like BERT and RoBERTa have not seen the same level of progress despite being foundational for many downstream NLP applications. To bridge this gap, we introduce NeoBERT, a next-generation encoder that redefines the capabilities of bidirectional models by integrating state-of-the-art advancements in architecture, modern data, and optimized pre-training methodologies. NeoBERT is designed for seamless adoption: it serves as a plug-and-play replacement for existing base models, relies on an optimal depth-to-width ratio, and leverages an extended context length of 4,096 tokens. Despite its compact 250M parameter footprint, it achieves state-of-the-art results on the massive MTEB benchmark, outperforming BERT large, RoBERTa large, NomicBERT, and ModernBERT under identical fine-tuning conditions. In addition, we rigorously evaluate the impact of each modification on GLUE and design a uniform fine-tuning and evaluation framework for MTEB. We release all code, data, checkpoints, and training scripts to accelerate research and real-world adoption.

Summary

AI-Generated Summary

PDF396February 28, 2025