ModernGBERT: Een uitsluitend Duits 1B Encoder Model Vanaf Nul Getraind
ModernGBERT: German-only 1B Encoder Model Trained from Scratch
May 19, 2025
Auteurs: Anton Ehrmanntraut, Julia Wunderle, Jan Pfister, Fotis Jannidis, Andreas Hotho
cs.AI
Samenvatting
Ondanks de dominantie van decoder-only taalmodellen blijven encoders cruciaal voor toepassingen met beperkte middelen. We introduceren ModernGBERT (134M, 1B), een volledig transparante familie van Duitse encodermodellen die vanaf nul zijn getraind, waarbij architectonische innovaties van ModernBERT zijn geïntegreerd. Om de praktische afwegingen van het trainen van encoders vanaf nul te evalueren, presenteren we ook LL\"aMmlein2Vec (120M, 1B, 7B), een familie van encoders die zijn afgeleid van Duitse decoder-only modellen via LLM2Vec. We testen alle modellen op taken voor natuurlijke taalverwerking, tekstembeddingen en redeneren over lange contexten, wat een gecontroleerde vergelijking mogelijk maakt tussen specifieke encoders en geconverteerde decoders. Onze resultaten laten zien dat ModernGBERT 1B zowel qua prestaties als parameter-efficiëntie beter presteert dan eerdere state-of-the-art Duitse encoders en encoders die zijn aangepast via LLM2Vec. Alle modellen, trainingsdata, checkpoints en code zijn publiekelijk beschikbaar, wat de Duitse NLP-ecosysteem vooruithelpt met transparante, hoogwaardige encodermodellen.
English
Despite the prominence of decoder-only language models, encoders remain
crucial for resource-constrained applications. We introduce ModernGBERT (134M,
1B), a fully transparent family of German encoder models trained from scratch,
incorporating architectural innovations from ModernBERT. To evaluate the
practical trade-offs of training encoders from scratch, we also present
LL\"aMmlein2Vec (120M, 1B, 7B), a family of encoders derived from German
decoder-only models via LLM2Vec. We benchmark all models on natural language
understanding, text embedding, and long-context reasoning tasks, enabling a
controlled comparison between dedicated encoders and converted decoders. Our
results show that ModernGBERT 1B outperforms prior state-of-the-art German
encoders as well as encoders adapted via LLM2Vec, with regard to performance
and parameter-efficiency. All models, training data, checkpoints and code are
publicly available, advancing the German NLP ecosystem with transparent,
high-performance encoder models.