ModernGBERT: Modello Encoder da 1B Addestrato da Zero Esclusivamente per il Tedesco
ModernGBERT: German-only 1B Encoder Model Trained from Scratch
May 19, 2025
Autori: Anton Ehrmanntraut, Julia Wunderle, Jan Pfister, Fotis Jannidis, Andreas Hotho
cs.AI
Abstract
Nonostante la predominanza dei modelli linguistici di tipo decoder-only, gli encoder rimangono cruciali per applicazioni con risorse limitate. Introduciamo ModernGBERT (134M, 1B), una famiglia completamente trasparente di modelli encoder in tedesco addestrati da zero, che incorpora innovazioni architetturali da ModernBERT. Per valutare i compromessi pratici dell'addestramento di encoder da zero, presentiamo anche LL\"aMmlein2Vec (120M, 1B, 7B), una famiglia di encoder derivati da modelli decoder-only in tedesco tramite LLM2Vec. Valutiamo tutti i modelli su compiti di comprensione del linguaggio naturale, embedding di testo e ragionamento su contesti lunghi, consentendo un confronto controllato tra encoder dedicati e decoder convertiti. I nostri risultati mostrano che ModernGBERT 1B supera i precedenti encoder in tedesco all'avanguardia, nonché gli encoder adattati tramite LLM2Vec, in termini di prestazioni ed efficienza parametrica. Tutti i modelli, i dati di addestramento, i checkpoint e il codice sono pubblicamente disponibili, contribuendo all'ecosistema NLP in tedesco con modelli encoder trasparenti e ad alte prestazioni.
English
Despite the prominence of decoder-only language models, encoders remain
crucial for resource-constrained applications. We introduce ModernGBERT (134M,
1B), a fully transparent family of German encoder models trained from scratch,
incorporating architectural innovations from ModernBERT. To evaluate the
practical trade-offs of training encoders from scratch, we also present
LL\"aMmlein2Vec (120M, 1B, 7B), a family of encoders derived from German
decoder-only models via LLM2Vec. We benchmark all models on natural language
understanding, text embedding, and long-context reasoning tasks, enabling a
controlled comparison between dedicated encoders and converted decoders. Our
results show that ModernGBERT 1B outperforms prior state-of-the-art German
encoders as well as encoders adapted via LLM2Vec, with regard to performance
and parameter-efficiency. All models, training data, checkpoints and code are
publicly available, advancing the German NLP ecosystem with transparent,
high-performance encoder models.