Model with Enhanced Contextual Understanding Abstract: In this paper, we introduce NeoBERT, a novel transformer-based language model that builds upon the BERT architecture while addressing its limitations in contextual comprehension. NeoBERT incorporates three key innovations: (1) a dynamic attention mechanism that adapts to varying context lengths, (2) a hierarchical token representation that captures both local and global dependencies, and (3) a knowledge distillation framework that enhances the model's ability to generalize across domains. Extensive experiments on benchmark datasets demonstrate that NeoBERT outperforms existing BERT variants in tasks requiring deep contextual understanding, such as question answering and text summarization. Our results suggest that NeoBERT represents a significant step forward in transformer-based language modeling, offering improved performance while maintaining computational efficiency. Keywords: Natural Language Processing, Transformer Models, Contextual Understanding, Knowledge DistillationNeoBERT: Ein BERT-Modell der nächsten Generation mit verbessertem kontextuellem Verständnis Zusammenfassung: In diesem Artikel stellen wir NeoBERT vor, ein neuartiges transformer-basiertes Sprachmodell, das auf der BERT-Architektur aufbaut und gleichzeitig deren Einschränkungen im kontextuellen Verständnis adressiert. NeoBERT integriert drei wesentliche Innovationen: (1) einen dynamischen Aufmerksamkeitsmechanismus, der sich an unterschiedliche Kontextlängen anpasst, (2) eine hierarchische Token-Darstellung, die sowohl lokale als auch globale Abhängigkeiten erfasst, und (3) ein Wissensdistillations-Framework, das die Fähigkeit des Modells zur domänenübergreifenden Generalisierung verbessert. Umfangreiche Experimente auf Benchmark-Datensätzen zeigen, dass NeoBERT bestehende BERT-Varianten bei Aufgaben, die ein tiefes kontextuelles Verständnis erfordern, wie z.B. Fragebeantwortung und Textzusammenfassung, übertrifft. Unsere Ergebnisse deuten darauf hin, dass NeoBERT einen bedeutenden Fortschritt im transformer-basierten Sprachmodellierung darstellt, der eine verbesserte Leistung bei gleichzeitiger Beibehaltung der Recheneffizienz bietet. Schlüsselwörter: Natürliche Sprachverarbeitung, Transformer-Modelle, Kontextuelles Verständnis, Wissensdistillation
NeoBERT: A Next-Generation BERT
February 26, 2025
Autoren: Lola Le Breton, Quentin Fournier, Mariam El Mezouar, Sarath Chandar
cs.AI
Zusammenfassung
Jüngste Innovationen in Architektur, Pre-Training und Fine-Tuning haben zu den bemerkenswerten Fähigkeiten im In-Context-Lernen und -Schlussfolgern großer autoregressiver Sprachmodelle wie LLaMA und DeepSeek geführt. Im Gegensatz dazu haben Encoder wie BERT und RoBERTa trotz ihrer grundlegenden Bedeutung für viele nachgelagerte NLP-Anwendungen nicht denselben Fortschritt erlebt. Um diese Lücke zu schließen, stellen wir NeoBERT vor, einen Encoder der nächsten Generation, der die Fähigkeiten bidirektionaler Modelle neu definiert, indem er modernste Fortschritte in Architektur, zeitgemäße Daten und optimierte Pre-Training-Methoden integriert. NeoBERT ist für eine nahtlose Übernahme konzipiert: Es dient als Plug-and-Play-Ersatz für bestehende Basismodelle, basiert auf einem optimalen Tiefen-Breiten-Verhältnis und nutzt eine erweiterte Kontextlänge von 4.096 Tokens. Trotz seines kompakten Footprints von 250M Parametern erzielt es Spitzenergebnisse auf dem umfangreichen MTEB-Benchmark und übertrifft BERT large, RoBERTa large, NomicBERT und ModernBERT unter identischen Fine-Tuning-Bedingungen. Zusätzlich bewerten wir rigoros die Auswirkungen jeder Modifikation auf GLUE und entwickeln ein einheitliches Fine-Tuning- und Evaluierungsframework für MTEB. Wir veröffentlichen den gesamten Code, Daten, Checkpoints und Trainingsskripte, um Forschung und praktische Anwendung zu beschleunigen.
English
Recent innovations in architecture, pre-training, and fine-tuning have led to
the remarkable in-context learning and reasoning abilities of large
auto-regressive language models such as LLaMA and DeepSeek. In contrast,
encoders like BERT and RoBERTa have not seen the same level of progress despite
being foundational for many downstream NLP applications. To bridge this gap, we
introduce NeoBERT, a next-generation encoder that redefines the capabilities of
bidirectional models by integrating state-of-the-art advancements in
architecture, modern data, and optimized pre-training methodologies. NeoBERT is
designed for seamless adoption: it serves as a plug-and-play replacement for
existing base models, relies on an optimal depth-to-width ratio, and leverages
an extended context length of 4,096 tokens. Despite its compact 250M parameter
footprint, it achieves state-of-the-art results on the massive MTEB benchmark,
outperforming BERT large, RoBERTa large, NomicBERT, and ModernBERT under
identical fine-tuning conditions. In addition, we rigorously evaluate the
impact of each modification on GLUE and design a uniform fine-tuning and
evaluation framework for MTEB. We release all code, data, checkpoints, and
training scripts to accelerate research and real-world adoption.Summary
AI-Generated Summary