Model with Enhanced Contextual Understanding
Abstract: In this paper, we introduce NeoBERT, a novel transformer-based language model that builds upon the BERT architecture while addressing its limitations in contextual comprehension. NeoBERT incorporates three key innovations: (1) a dynamic attention mechanism that adapts to varying context lengths, (2) a hierarchical token representation that captures both local and global dependencies, and (3) a knowledge distillation framework that enhances the model's ability to generalize across domains. Extensive experiments on benchmark datasets demonstrate that NeoBERT outperforms existing BERT variants in tasks requiring deep contextual understanding, such as question answering and text summarization. Our results suggest that NeoBERT represents a significant step forward in transformer-based language modeling, offering improved performance while maintaining computational efficiency.
Keywords: Natural Language Processing, Transformer Models, Contextual Understanding, Knowledge DistillationNeoBERT: Ein BERT-Modell der nächsten Generation mit verbessertem kontextuellem Verständnis
Zusammenfassung: In diesem Artikel stellen wir NeoBERT vor, ein neuartiges transformer-basiertes Sprachmodell, das auf der BERT-Architektur aufbaut und gleichzeitig deren Einschränkungen im kontextuellen Verständnis adressiert. NeoBERT integriert drei wesentliche Innovationen: (1) einen dynamischen Aufmerksamkeitsmechanismus, der sich an unterschiedliche Kontextlängen anpasst, (2) eine hierarchische Token-Darstellung, die sowohl lokale als auch globale Abhängigkeiten erfasst, und (3) ein Wissensdistillations-Framework, das die Fähigkeit des Modells zur domänenübergreifenden Generalisierung verbessert. Umfangreiche Experimente auf Benchmark-Datensätzen zeigen, dass NeoBERT bestehende BERT-Varianten bei Aufgaben, die ein tiefes kontextuelles Verständnis erfordern, wie z.B. Fragebeantwortung und Textzusammenfassung, übertrifft. Unsere Ergebnisse deuten darauf hin, dass NeoBERT einen bedeutenden Fortschritt im transformer-basierten Sprachmodellierung darstellt, der eine verbesserte Leistung bei gleichzeitiger Beibehaltung der Recheneffizienz bietet.
Schlüsselwörter: Natürliche Sprachverarbeitung, Transformer-Modelle, Kontextuelles Verständnis, Wissensdistillation
NeoBERT: A Next-Generation BERT