ModernGBERT: Modelo Codificador de 1B Exclusivo para Alemão Treinado do Zero
ModernGBERT: German-only 1B Encoder Model Trained from Scratch
May 19, 2025
Autores: Anton Ehrmanntraut, Julia Wunderle, Jan Pfister, Fotis Jannidis, Andreas Hotho
cs.AI
Resumo
Apesar da proeminência dos modelos de linguagem apenas com decodificador, os codificadores continuam sendo cruciais para aplicações com recursos limitados. Apresentamos o ModernGBERT (134M, 1B), uma família totalmente transparente de modelos codificadores em alemão treinados do zero, incorporando inovações arquitetônicas do ModernBERT. Para avaliar as compensações práticas de treinar codificadores do zero, também apresentamos o LL\"aMmlein2Vec (120M, 1B, 7B), uma família de codificadores derivados de modelos apenas com decodificador em alemão via LLM2Vec. Avaliamos todos os modelos em tarefas de compreensão de linguagem natural, incorporação de texto e raciocínio de contexto longo, permitindo uma comparação controlada entre codificadores dedicados e decodificadores convertidos. Nossos resultados mostram que o ModernGBERT 1B supera os codificadores em alemão de última geração anteriores, bem como os codificadores adaptados via LLM2Vec, em termos de desempenho e eficiência de parâmetros. Todos os modelos, dados de treinamento, checkpoints e código estão publicamente disponíveis, avançando o ecossistema de PLN em alemão com modelos codificadores transparentes e de alto desempenho.
English
Despite the prominence of decoder-only language models, encoders remain
crucial for resource-constrained applications. We introduce ModernGBERT (134M,
1B), a fully transparent family of German encoder models trained from scratch,
incorporating architectural innovations from ModernBERT. To evaluate the
practical trade-offs of training encoders from scratch, we also present
LL\"aMmlein2Vec (120M, 1B, 7B), a family of encoders derived from German
decoder-only models via LLM2Vec. We benchmark all models on natural language
understanding, text embedding, and long-context reasoning tasks, enabling a
controlled comparison between dedicated encoders and converted decoders. Our
results show that ModernGBERT 1B outperforms prior state-of-the-art German
encoders as well as encoders adapted via LLM2Vec, with regard to performance
and parameter-efficiency. All models, training data, checkpoints and code are
publicly available, advancing the German NLP ecosystem with transparent,
high-performance encoder models.