ModernGBERT: Modelo codificador de 1B exclusivo para alemán entrenado desde cero
ModernGBERT: German-only 1B Encoder Model Trained from Scratch
May 19, 2025
Autores: Anton Ehrmanntraut, Julia Wunderle, Jan Pfister, Fotis Jannidis, Andreas Hotho
cs.AI
Resumen
A pesar del predominio de los modelos de lenguaje basados únicamente en decodificadores, los codificadores siguen siendo cruciales para aplicaciones con recursos limitados. Presentamos ModernGBERT (134M, 1B), una familia completamente transparente de modelos codificadores en alemán entrenados desde cero, incorporando innovaciones arquitectónicas de ModernBERT. Para evaluar las compensaciones prácticas de entrenar codificadores desde cero, también presentamos LL\"aMmlein2Vec (120M, 1B, 7B), una familia de codificadores derivados de modelos de decodificadores en alemán a través de LLM2Vec. Evaluamos todos los modelos en tareas de comprensión del lenguaje natural, generación de embeddings de texto y razonamiento de contexto largo, permitiendo una comparación controlada entre codificadores dedicados y decodificadores convertidos. Nuestros resultados muestran que ModernGBERT 1B supera a los codificadores en alemán de última generación anteriores, así como a los codificadores adaptados mediante LLM2Vec, en términos de rendimiento y eficiencia de parámetros. Todos los modelos, datos de entrenamiento, puntos de control y código están disponibles públicamente, avanzando el ecosistema de PLN en alemán con modelos codificadores transparentes y de alto rendimiento.
English
Despite the prominence of decoder-only language models, encoders remain
crucial for resource-constrained applications. We introduce ModernGBERT (134M,
1B), a fully transparent family of German encoder models trained from scratch,
incorporating architectural innovations from ModernBERT. To evaluate the
practical trade-offs of training encoders from scratch, we also present
LL\"aMmlein2Vec (120M, 1B, 7B), a family of encoders derived from German
decoder-only models via LLM2Vec. We benchmark all models on natural language
understanding, text embedding, and long-context reasoning tasks, enabling a
controlled comparison between dedicated encoders and converted decoders. Our
results show that ModernGBERT 1B outperforms prior state-of-the-art German
encoders as well as encoders adapted via LLM2Vec, with regard to performance
and parameter-efficiency. All models, training data, checkpoints and code are
publicly available, advancing the German NLP ecosystem with transparent,
high-performance encoder models.Summary
AI-Generated Summary