ModernGBERT: Немецкоязычная 1B-модель-энкодер, обученная с нуля
ModernGBERT: German-only 1B Encoder Model Trained from Scratch
May 19, 2025
Авторы: Anton Ehrmanntraut, Julia Wunderle, Jan Pfister, Fotis Jannidis, Andreas Hotho
cs.AI
Аннотация
Несмотря на доминирование языковых моделей, использующих только декодеры, энкодеры остаются критически важными для приложений с ограниченными ресурсами. Мы представляем ModernGBERT (134M, 1B) — полностью прозрачное семейство немецких моделей-энкодеров, обученных с нуля, включающее архитектурные инновации из ModernBERT. Чтобы оценить практические компромиссы при обучении энкодеров с нуля, мы также представляем LL\"aMmlein2Vec (120M, 1B, 7B) — семейство энкодеров, полученных из немецких моделей, использующих только декодеры, с помощью LLM2Vec. Мы тестируем все модели на задачах понимания естественного языка, создания текстовых эмбеддингов и рассуждений в длинных контекстах, что позволяет провести контролируемое сравнение между специализированными энкодерами и адаптированными декодерами. Наши результаты показывают, что ModernGBERT 1B превосходит предыдущие передовые немецкие энкодеры, а также энкодеры, адаптированные через LLM2Vec, как по производительности, так и по эффективности использования параметров. Все модели, обучающие данные, контрольные точки и код находятся в открытом доступе, что способствует развитию немецкой экосистемы NLP с помощью прозрачных и высокопроизводительных моделей-энкодеров.
English
Despite the prominence of decoder-only language models, encoders remain
crucial for resource-constrained applications. We introduce ModernGBERT (134M,
1B), a fully transparent family of German encoder models trained from scratch,
incorporating architectural innovations from ModernBERT. To evaluate the
practical trade-offs of training encoders from scratch, we also present
LL\"aMmlein2Vec (120M, 1B, 7B), a family of encoders derived from German
decoder-only models via LLM2Vec. We benchmark all models on natural language
understanding, text embedding, and long-context reasoning tasks, enabling a
controlled comparison between dedicated encoders and converted decoders. Our
results show that ModernGBERT 1B outperforms prior state-of-the-art German
encoders as well as encoders adapted via LLM2Vec, with regard to performance
and parameter-efficiency. All models, training data, checkpoints and code are
publicly available, advancing the German NLP ecosystem with transparent,
high-performance encoder models.Summary
AI-Generated Summary