Mecelle Modelleri: Hukuk Alanında Sıfırdan Eğitilmiş ve Sürekli Ön Eğitilmiş Türk Modelleri
Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain
January 22, 2026
著者: Özgür Uğur, Mahmut Göksu, Mahmut Çimen, Musa Yılmaz, Esra Şavirdi, Alp Talha Demir, Rumeysa Güllüce, İclal Çetin, Ömer Can Sağbaş
cs.AI
要旨
本論文は、ドメイン適応戦略を通じてトルコ法分野に特化した言語モデルを開発するフレームワーク「Mecellemモデル」を提案する。主な貢献は二つある:(1)スクラッチから事前学習されたエンコーダモデル:1127億トークンからなるトルコ語主体のコーパスで事前学習されたModernBERTベースの双方向エンコーダ。学習過程を通じて下流検索性能を評価するチェックポイント選択戦略を実装し、最適なチェックポイントが事前学習損失が最小値に達する前に最高の検索スコアを達成することを明らかにした。当該エンコーダモデルはトルコ語検索リーダーボードでトップ3入りし、小規模モデル(1億5500万パラメータ)が大規模参照モデル(3億700万~5億6700万パラメータ)と同等の性能を達成。生産性効率は92.36%を達成(最先端モデル比較:embeddinggemma-300m: 100.00%, BAAI/bge-m3: 99.54%, newmindai/bge-m3-stsb: 94.38%)、計算資源が少ないにも関わらず総合4位にランクイン。SOTAモデルが多段階で計算集約的な訓練パイプラインに依存する中、我々の単段階事前学習と効率的な事後訓練を組み合わせたアプローチはコスト効率に優れる。(2)継続事前学習(CPT)を施したデコーダモデル:Qwen3-1.7BおよびQwen3-4Bモデルを制御されたカリキュラム学習でトルコ法分野に適応。最適なサンプル比率による4段階CPTにより、一般言語知識から専門的法術語及び長文脈推論への段階的移行を実現。このアプローチはトルコ法文書で36.2%のパープレキシティ低減を達成し、ドメイン適応の効果を実証した。
English
This paper presents Mecellem models, a framework for developing specialized language models for the Turkish legal domain through domain adaptation strategies. We make two contributions: (1)Encoder Model Pre-trained from Scratch: ModernBERT-based bidirectional encoders pre-trained on a Turkish-dominant corpus of 112.7 billion tokens. We implement a checkpoint selection strategy that evaluates downstream retrieval performance throughout training, revealing that optimal checkpoints achieve best retrieval scores before pre-training loss reaches its minimum. Our encoder models achieve top-3 rankings on the Turkish retrieval leaderboard, with smaller models (155M parameters) achieving comparable performance to larger reference models (307M-567M parameters). Our approach achieves 92.36% production efficiency compared to state-of-the-art models (embeddinggemma-300m: 100.00%, BAAI/bge-m3: 99.54%, newmindai/bge-m3-stsb: 94.38%), ranking fourth overall despite requiring less computational resources. SOTA models rely on multi-stage, computationally intensive training pipelines, making our single-stage pre-training followed by efficient post-training approach a cost-effective alternative; (2)Decoder Model with Continual Pre-training (CPT): Qwen3-1.7B and Qwen3-4B models adapted to Turkish legal domain through controlled curriculum learning. Four-phase CPT with optimal sample ratios enables gradual transition from general language knowledge to specialized legal terminology and long-context reasoning. This approach achieves 36.2% perplexity reduction on Turkish legal text, demonstrating domain adaptation gains.