ModernGBERT : Modèle encodeur de 1 milliard de paramètres exclusivement en allemand, entraîné à partir de zéro
ModernGBERT: German-only 1B Encoder Model Trained from Scratch
May 19, 2025
Auteurs: Anton Ehrmanntraut, Julia Wunderle, Jan Pfister, Fotis Jannidis, Andreas Hotho
cs.AI
Résumé
Malgré la prédominance des modèles de langage à décodeur uniquement, les encodeurs restent essentiels pour les applications à ressources limitées. Nous présentons ModernGBERT (134M, 1B), une famille entièrement transparente de modèles encodeurs allemands entraînés à partir de zéro, intégrant des innovations architecturales issues de ModernBERT. Pour évaluer les compromis pratiques de l'entraînement d'encodeurs à partir de zéro, nous présentons également LL\"aMmlein2Vec (120M, 1B, 7B), une famille d'encodeurs dérivés de modèles à décodeur uniquement allemands via LLM2Vec. Nous évaluons tous les modèles sur des tâches de compréhension du langage naturel, d'incorporation de texte et de raisonnement sur des contextes longs, permettant une comparaison contrôlée entre les encodeurs dédiés et les décodeurs convertis. Nos résultats montrent que ModernGBERT 1B surpasse les encodeurs allemands de pointe antérieurs ainsi que les encodeurs adaptés via LLM2Vec, en termes de performance et d'efficacité paramétrique. Tous les modèles, les données d'entraînement, les points de contrôle et le code sont disponibles publiquement, faisant progresser l'écosystème du TAL allemand avec des modèles encodeurs transparents et performants.
English
Despite the prominence of decoder-only language models, encoders remain
crucial for resource-constrained applications. We introduce ModernGBERT (134M,
1B), a fully transparent family of German encoder models trained from scratch,
incorporating architectural innovations from ModernBERT. To evaluate the
practical trade-offs of training encoders from scratch, we also present
LL\"aMmlein2Vec (120M, 1B, 7B), a family of encoders derived from German
decoder-only models via LLM2Vec. We benchmark all models on natural language
understanding, text embedding, and long-context reasoning tasks, enabling a
controlled comparison between dedicated encoders and converted decoders. Our
results show that ModernGBERT 1B outperforms prior state-of-the-art German
encoders as well as encoders adapted via LLM2Vec, with regard to performance
and parameter-efficiency. All models, training data, checkpoints and code are
publicly available, advancing the German NLP ecosystem with transparent,
high-performance encoder models.Summary
AI-Generated Summary