ModernGBERT: Modello Encoder da 1B Addestrato da Zero Esclusivamente per il Tedesco

Abstract

Nonostante la predominanza dei modelli linguistici di tipo decoder-only, gli encoder rimangono cruciali per applicazioni con risorse limitate. Introduciamo ModernGBERT (134M, 1B), una famiglia completamente trasparente di modelli encoder in tedesco addestrati da zero, che incorpora innovazioni architetturali da ModernBERT. Per valutare i compromessi pratici dell'addestramento di encoder da zero, presentiamo anche LL\"aMmlein2Vec (120M, 1B, 7B), una famiglia di encoder derivati da modelli decoder-only in tedesco tramite LLM2Vec. Valutiamo tutti i modelli su compiti di comprensione del linguaggio naturale, embedding di testo e ragionamento su contesti lunghi, consentendo un confronto controllato tra encoder dedicati e decoder convertiti. I nostri risultati mostrano che ModernGBERT 1B supera i precedenti encoder in tedesco all'avanguardia, nonché gli encoder adattati tramite LLM2Vec, in termini di prestazioni ed efficienza parametrica. Tutti i modelli, i dati di addestramento, i checkpoint e il codice sono pubblicamente disponibili, contribuendo all'ecosistema NLP in tedesco con modelli encoder trasparenti e ad alte prestazioni.

English

Despite the prominence of decoder-only language models, encoders remain crucial for resource-constrained applications. We introduce ModernGBERT (134M, 1B), a fully transparent family of German encoder models trained from scratch, incorporating architectural innovations from ModernBERT. To evaluate the practical trade-offs of training encoders from scratch, we also present LL\"aMmlein2Vec (120M, 1B, 7B), a family of encoders derived from German decoder-only models via LLM2Vec. We benchmark all models on natural language understanding, text embedding, and long-context reasoning tasks, enabling a controlled comparison between dedicated encoders and converted decoders. Our results show that ModernGBERT 1B outperforms prior state-of-the-art German encoders as well as encoders adapted via LLM2Vec, with regard to performance and parameter-efficiency. All models, training data, checkpoints and code are publicly available, advancing the German NLP ecosystem with transparent, high-performance encoder models.

ModernGBERT: Modello Encoder da 1B Addestrato da Zero Esclusivamente per il Tedesco

ModernGBERT: German-only 1B Encoder Model Trained from Scratch

Abstract

Support