ChatPaper.aiChatPaper

ModernGBERT: Modelo codificador de 1B exclusivo para alemán entrenado desde cero

ModernGBERT: German-only 1B Encoder Model Trained from Scratch

May 19, 2025
Autores: Anton Ehrmanntraut, Julia Wunderle, Jan Pfister, Fotis Jannidis, Andreas Hotho
cs.AI

Resumen

A pesar del predominio de los modelos de lenguaje basados únicamente en decodificadores, los codificadores siguen siendo cruciales para aplicaciones con recursos limitados. Presentamos ModernGBERT (134M, 1B), una familia completamente transparente de modelos codificadores en alemán entrenados desde cero, incorporando innovaciones arquitectónicas de ModernBERT. Para evaluar las compensaciones prácticas de entrenar codificadores desde cero, también presentamos LL\"aMmlein2Vec (120M, 1B, 7B), una familia de codificadores derivados de modelos de decodificadores en alemán a través de LLM2Vec. Evaluamos todos los modelos en tareas de comprensión del lenguaje natural, generación de embeddings de texto y razonamiento de contexto largo, permitiendo una comparación controlada entre codificadores dedicados y decodificadores convertidos. Nuestros resultados muestran que ModernGBERT 1B supera a los codificadores en alemán de última generación anteriores, así como a los codificadores adaptados mediante LLM2Vec, en términos de rendimiento y eficiencia de parámetros. Todos los modelos, datos de entrenamiento, puntos de control y código están disponibles públicamente, avanzando el ecosistema de PLN en alemán con modelos codificadores transparentes y de alto rendimiento.
English
Despite the prominence of decoder-only language models, encoders remain crucial for resource-constrained applications. We introduce ModernGBERT (134M, 1B), a fully transparent family of German encoder models trained from scratch, incorporating architectural innovations from ModernBERT. To evaluate the practical trade-offs of training encoders from scratch, we also present LL\"aMmlein2Vec (120M, 1B, 7B), a family of encoders derived from German decoder-only models via LLM2Vec. We benchmark all models on natural language understanding, text embedding, and long-context reasoning tasks, enabling a controlled comparison between dedicated encoders and converted decoders. Our results show that ModernGBERT 1B outperforms prior state-of-the-art German encoders as well as encoders adapted via LLM2Vec, with regard to performance and parameter-efficiency. All models, training data, checkpoints and code are publicly available, advancing the German NLP ecosystem with transparent, high-performance encoder models.

Summary

AI-Generated Summary

PDF192May 27, 2025