Mecelle Modelleri: Hukuk Alanı İçin Sıfırdan Eğitilmiş ve Sürekli Ön Eğitilmiş Türk Modeller

Abstract

Questo articolo presenta i modelli Mecellem, un framework per lo sviluppo di modelli linguistici specializzati per il dominio legale turco attraverso strategie di adattamento di dominio. Forniamo due contributi principali: (1) Modello Encoder Pre-addestrato da Zero: encoder bidirezionali basati su ModernBERT pre-addestrati su un corpus a predominanza turca di 112,7 miliardi di token. Implementiamo una strategia di selezione dei checkpoint che valuta le prestazioni di retrieval a valle durante l'addestramento, rivelando che i checkpoint ottimali raggiungono i migliori punteggi di retrieval prima che la loss di pre-addestramento raggiunga il suo minimo. I nostri modelli encoder si posizionano tra i primi 3 nella classifica leaderboard del retrieval per il turco, con modelli più piccoli (155 milioni di parametri) che raggiungono prestazioni comparabili a modelli di riferimento più grandi (307-567 milioni di parametri). Il nostro approccio raggiunge un'efficienza produttiva del 92,36% rispetto ai modelli state-of-the-art (embeddinggemma-300m: 100,00%, BAAI/bge-m3: 99,54%, newmindai/bge-m3-stsb: 94,38%), classificandosi al quarto posto nonostante richieda meno risorse computazionali. I modelli SOTA si basano su pipeline di addestramento multi-stage e computazionalmente intensive, rendendo il nostro approccio di pre-addestramento single-stage seguito da un efficiente post-addestramento un'alternativa economicamente vantaggiosa; (2) Modello Decoder con Pre-addestramento Continuo (CPT): modelli Qwen3-1.7B e Qwen3-4B adattati al dominio legale turco attraverso un apprendimento curriculare controllato. Un CPT in quattro fasi con rapporti di campionamento ottimali consente una transizione graduale dalla conoscenza linguistica generale alla terminologia legale specializzata e al ragionamento a contesto lungo. Questo approccio raggiunge una riduzione della perplessità del 36,2% su testo legale turco, dimostrando i vantaggi dell'adattamento di dominio.

English

This paper presents Mecellem models, a framework for developing specialized language models for the Turkish legal domain through domain adaptation strategies. We make two contributions: (1)Encoder Model Pre-trained from Scratch: ModernBERT-based bidirectional encoders pre-trained on a Turkish-dominant corpus of 112.7 billion tokens. We implement a checkpoint selection strategy that evaluates downstream retrieval performance throughout training, revealing that optimal checkpoints achieve best retrieval scores before pre-training loss reaches its minimum. Our encoder models achieve top-3 rankings on the Turkish retrieval leaderboard, with smaller models (155M parameters) achieving comparable performance to larger reference models (307M-567M parameters). Our approach achieves 92.36% production efficiency compared to state-of-the-art models (embeddinggemma-300m: 100.00%, BAAI/bge-m3: 99.54%, newmindai/bge-m3-stsb: 94.38%), ranking fourth overall despite requiring less computational resources. SOTA models rely on multi-stage, computationally intensive training pipelines, making our single-stage pre-training followed by efficient post-training approach a cost-effective alternative; (2)Decoder Model with Continual Pre-training (CPT): Qwen3-1.7B and Qwen3-4B models adapted to Turkish legal domain through controlled curriculum learning. Four-phase CPT with optimal sample ratios enables gradual transition from general language knowledge to specialized legal terminology and long-context reasoning. This approach achieves 36.2% perplexity reduction on Turkish legal text, demonstrating domain adaptation gains.

Mecelle Modelleri: Hukuk Alanı İçin Sıfırdan Eğitilmiş ve Sürekli Ön Eğitilmiş Türk Modeller

Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain

Abstract

Support