ModernGBERT: Een uitsluitend Duits 1B Encoder Model Vanaf Nul Getraind

Samenvatting

Ondanks de dominantie van decoder-only taalmodellen blijven encoders cruciaal voor toepassingen met beperkte middelen. We introduceren ModernGBERT (134M, 1B), een volledig transparante familie van Duitse encodermodellen die vanaf nul zijn getraind, waarbij architectonische innovaties van ModernBERT zijn geïntegreerd. Om de praktische afwegingen van het trainen van encoders vanaf nul te evalueren, presenteren we ook LL\"aMmlein2Vec (120M, 1B, 7B), een familie van encoders die zijn afgeleid van Duitse decoder-only modellen via LLM2Vec. We testen alle modellen op taken voor natuurlijke taalverwerking, tekstembeddingen en redeneren over lange contexten, wat een gecontroleerde vergelijking mogelijk maakt tussen specifieke encoders en geconverteerde decoders. Onze resultaten laten zien dat ModernGBERT 1B zowel qua prestaties als parameter-efficiëntie beter presteert dan eerdere state-of-the-art Duitse encoders en encoders die zijn aangepast via LLM2Vec. Alle modellen, trainingsdata, checkpoints en code zijn publiekelijk beschikbaar, wat de Duitse NLP-ecosysteem vooruithelpt met transparante, hoogwaardige encodermodellen.

English

Despite the prominence of decoder-only language models, encoders remain crucial for resource-constrained applications. We introduce ModernGBERT (134M, 1B), a fully transparent family of German encoder models trained from scratch, incorporating architectural innovations from ModernBERT. To evaluate the practical trade-offs of training encoders from scratch, we also present LL\"aMmlein2Vec (120M, 1B, 7B), a family of encoders derived from German decoder-only models via LLM2Vec. We benchmark all models on natural language understanding, text embedding, and long-context reasoning tasks, enabling a controlled comparison between dedicated encoders and converted decoders. Our results show that ModernGBERT 1B outperforms prior state-of-the-art German encoders as well as encoders adapted via LLM2Vec, with regard to performance and parameter-efficiency. All models, training data, checkpoints and code are publicly available, advancing the German NLP ecosystem with transparent, high-performance encoder models.

ModernGBERT: Een uitsluitend Duits 1B Encoder Model Vanaf Nul Getraind

ModernGBERT: German-only 1B Encoder Model Trained from Scratch

Samenvatting

Support