ChatPaper.aiChatPaper

ModernGBERT: Ein ausschließlich deutschsprachiges 1B Encoder-Modell, das von Grund auf trainiert wurde

ModernGBERT: German-only 1B Encoder Model Trained from Scratch

May 19, 2025
Autoren: Anton Ehrmanntraut, Julia Wunderle, Jan Pfister, Fotis Jannidis, Andreas Hotho
cs.AI

Zusammenfassung

Trotz der Dominanz von Decoder-only-Sprachmodellen bleiben Encoder für ressourcenbeschränkte Anwendungen entscheidend. Wir stellen ModernGBERT (134M, 1B) vor, eine vollständig transparente Familie deutscher Encoder-Modelle, die von Grund auf trainiert wurden und architektonische Innovationen von ModernBERT integrieren. Um die praktischen Kompromisse beim Training von Encodern von Grund auf zu bewerten, präsentieren wir auch LL\"aMmlein2Vec (120M, 1B, 7B), eine Familie von Encodern, die aus deutschen Decoder-only-Modellen über LLM2Vec abgeleitet wurden. Wir benchmarken alle Modelle in den Bereichen Natural Language Understanding, Text-Embedding und Langzeitkontext-Rationalität, was einen kontrollierten Vergleich zwischen dedizierten Encodern und konvertierten Decodern ermöglicht. Unsere Ergebnisse zeigen, dass ModernGBERT 1B sowohl in Bezug auf die Leistung als auch auf die Parameter-Effizienz bisherige State-of-the-Art deutsche Encoder sowie über LLM2Vec adaptierte Encoder übertrifft. Alle Modelle, Trainingsdaten, Checkpoints und Code sind öffentlich verfügbar und fördern das deutsche NLP-Ökosystem mit transparenten, leistungsstarken Encoder-Modellen.
English
Despite the prominence of decoder-only language models, encoders remain crucial for resource-constrained applications. We introduce ModernGBERT (134M, 1B), a fully transparent family of German encoder models trained from scratch, incorporating architectural innovations from ModernBERT. To evaluate the practical trade-offs of training encoders from scratch, we also present LL\"aMmlein2Vec (120M, 1B, 7B), a family of encoders derived from German decoder-only models via LLM2Vec. We benchmark all models on natural language understanding, text embedding, and long-context reasoning tasks, enabling a controlled comparison between dedicated encoders and converted decoders. Our results show that ModernGBERT 1B outperforms prior state-of-the-art German encoders as well as encoders adapted via LLM2Vec, with regard to performance and parameter-efficiency. All models, training data, checkpoints and code are publicly available, advancing the German NLP ecosystem with transparent, high-performance encoder models.

Summary

AI-Generated Summary

PDF192May 27, 2025