Mecellem Modelleri: Hukuk Alanında Sıfırdan Eğitilmiş ve Sürekli Ön Eğitilmiş Türkçe Modeller
Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain
January 22, 2026
Autores: Özgür Uğur, Mahmut Göksu, Mahmut Çimen, Musa Yılmaz, Esra Şavirdi, Alp Talha Demir, Rumeysa Güllüce, İclal Çetin, Ömer Can Sağbaş
cs.AI
Resumo
Este artigo apresenta os modelos Mecellem, uma estrutura para desenvolver modelos de linguagem especializados para o domínio jurídico turco através de estratégias de adaptação de domínio. Fazemos duas contribuições: (1) **Modelo Codificador Pré-treinado a Partir do Zero**: Codificadores bidirecionais baseados no ModernBERT pré-treinados em um corpus predominantemente turco de 112,7 mil milhões de tokens. Implementamos uma estratégia de seleção de *checkpoints* que avalia o desempenho de recuperação (*retrieval*) em tarefas downstream ao longo do treino, revelando que os *checkpoints* ótimos alcançam os melhores resultados de recuperação antes que a perda do pré-treino atinja o seu mínimo. Os nossos modelos codificadores alcançam classificações entre os três primeiros no *leaderboard* de recuperação em turco, com modelos menores (155M parâmetros) a obter desempenho comparável a modelos de referência maiores (307M-567M parâmetros). A nossa abordagem atinge 92,36% de eficiência de produção em comparação com modelos state-of-the-art (embeddinggemma-300m: 100,00%, BAAI/bge-m3: 99,54%, newmindai/bge-m3-stsb: 94,38%), classificando-se em quarto lugar geral, apesar de requerer menos recursos computacionais. Os modelos SOTA dependem de *pipelines* de treino multiestágio e computacionalmente intensivos, tornando a nossa abordagem de pré-treino em estágio único seguido de pós-treino eficaz uma alternativa economicamente vantajosa; (2) **Modelo Decodificador com Pré-treino Contínuo (CPT)**: Modelos Qwen3-1.7B e Qwen3-4B adaptados ao domínio jurídico turco através de aprendizagem curricular controlada. Um CPT de quatro fases com rácios de amostra ótimos permite uma transição gradual do conhecimento linguístico geral para a terminologia jurídica especializada e o raciocínio de contexto longo. Esta abordagem alcança uma redução de 36,2% na perplexidade em texto jurídico turco, demonstrando ganhos na adaptação de domínio.
English
This paper presents Mecellem models, a framework for developing specialized language models for the Turkish legal domain through domain adaptation strategies. We make two contributions: (1)Encoder Model Pre-trained from Scratch: ModernBERT-based bidirectional encoders pre-trained on a Turkish-dominant corpus of 112.7 billion tokens. We implement a checkpoint selection strategy that evaluates downstream retrieval performance throughout training, revealing that optimal checkpoints achieve best retrieval scores before pre-training loss reaches its minimum. Our encoder models achieve top-3 rankings on the Turkish retrieval leaderboard, with smaller models (155M parameters) achieving comparable performance to larger reference models (307M-567M parameters). Our approach achieves 92.36% production efficiency compared to state-of-the-art models (embeddinggemma-300m: 100.00%, BAAI/bge-m3: 99.54%, newmindai/bge-m3-stsb: 94.38%), ranking fourth overall despite requiring less computational resources. SOTA models rely on multi-stage, computationally intensive training pipelines, making our single-stage pre-training followed by efficient post-training approach a cost-effective alternative; (2)Decoder Model with Continual Pre-training (CPT): Qwen3-1.7B and Qwen3-4B models adapted to Turkish legal domain through controlled curriculum learning. Four-phase CPT with optimal sample ratios enables gradual transition from general language knowledge to specialized legal terminology and long-context reasoning. This approach achieves 36.2% perplexity reduction on Turkish legal text, demonstrating domain adaptation gains.