ChatPaper.aiChatPaper

ModernGBERT:ゼロから訓練されたドイツ語専用10億パラメータエンコーダーモデル

ModernGBERT: German-only 1B Encoder Model Trained from Scratch

May 19, 2025
著者: Anton Ehrmanntraut, Julia Wunderle, Jan Pfister, Fotis Jannidis, Andreas Hotho
cs.AI

要旨

デコーダのみの言語モデルが注目を集める中でも、リソースに制約のあるアプリケーションにおいてエンコーダは依然として重要です。本論文では、ModernBERTのアーキテクチャ上の革新を取り入れた、ゼロから訓練された完全に透明なドイツ語エンコーダモデルファミリーであるModernGBERT(134M、1B)を紹介します。エンコーダをゼロから訓練することの実用的なトレードオフを評価するため、ドイツ語のデコーダのみのモデルからLLM2Vecを介して導出されたエンコーダファミリーであるLL\"aMmlein2Vec(120M、1B、7B)も提示します。すべてのモデルを自然言語理解、テキスト埋め込み、長文脈推論タスクでベンチマークし、専用エンコーダと変換されたデコーダの間の制御された比較を可能にします。我々の結果は、ModernGBERT 1Bが、性能とパラメータ効率の観点で、従来の最先端ドイツ語エンコーダやLLM2Vecを介して適応されたエンコーダを上回ることを示しています。すべてのモデル、訓練データ、チェックポイント、コードは公開されており、透明で高性能なエンコーダモデルを通じてドイツ語NLPエコシステムを推進します。
English
Despite the prominence of decoder-only language models, encoders remain crucial for resource-constrained applications. We introduce ModernGBERT (134M, 1B), a fully transparent family of German encoder models trained from scratch, incorporating architectural innovations from ModernBERT. To evaluate the practical trade-offs of training encoders from scratch, we also present LL\"aMmlein2Vec (120M, 1B, 7B), a family of encoders derived from German decoder-only models via LLM2Vec. We benchmark all models on natural language understanding, text embedding, and long-context reasoning tasks, enabling a controlled comparison between dedicated encoders and converted decoders. Our results show that ModernGBERT 1B outperforms prior state-of-the-art German encoders as well as encoders adapted via LLM2Vec, with regard to performance and parameter-efficiency. All models, training data, checkpoints and code are publicly available, advancing the German NLP ecosystem with transparent, high-performance encoder models.

Summary

AI-Generated Summary

PDF192May 27, 2025