ModernGBERT : Modèle encodeur de 1 milliard de paramètres exclusivement en allemand, entraîné à partir de zéro

papers.abstract

Malgré la prédominance des modèles de langage à décodeur uniquement, les encodeurs restent essentiels pour les applications à ressources limitées. Nous présentons ModernGBERT (134M, 1B), une famille entièrement transparente de modèles encodeurs allemands entraînés à partir de zéro, intégrant des innovations architecturales issues de ModernBERT. Pour évaluer les compromis pratiques de l'entraînement d'encodeurs à partir de zéro, nous présentons également LL\"aMmlein2Vec (120M, 1B, 7B), une famille d'encodeurs dérivés de modèles à décodeur uniquement allemands via LLM2Vec. Nous évaluons tous les modèles sur des tâches de compréhension du langage naturel, d'incorporation de texte et de raisonnement sur des contextes longs, permettant une comparaison contrôlée entre les encodeurs dédiés et les décodeurs convertis. Nos résultats montrent que ModernGBERT 1B surpasse les encodeurs allemands de pointe antérieurs ainsi que les encodeurs adaptés via LLM2Vec, en termes de performance et d'efficacité paramétrique. Tous les modèles, les données d'entraînement, les points de contrôle et le code sont disponibles publiquement, faisant progresser l'écosystème du TAL allemand avec des modèles encodeurs transparents et performants.

English

Despite the prominence of decoder-only language models, encoders remain crucial for resource-constrained applications. We introduce ModernGBERT (134M, 1B), a fully transparent family of German encoder models trained from scratch, incorporating architectural innovations from ModernBERT. To evaluate the practical trade-offs of training encoders from scratch, we also present LL\"aMmlein2Vec (120M, 1B, 7B), a family of encoders derived from German decoder-only models via LLM2Vec. We benchmark all models on natural language understanding, text embedding, and long-context reasoning tasks, enabling a controlled comparison between dedicated encoders and converted decoders. Our results show that ModernGBERT 1B outperforms prior state-of-the-art German encoders as well as encoders adapted via LLM2Vec, with regard to performance and parameter-efficiency. All models, training data, checkpoints and code are publicly available, advancing the German NLP ecosystem with transparent, high-performance encoder models.

ModernGBERT : Modèle encodeur de 1 milliard de paramètres exclusivement en allemand, entraîné à partir de zéro

ModernGBERT: German-only 1B Encoder Model Trained from Scratch

papers.abstract

Support