Mecellem Modelleri: Hukuk Alanında Sıfırdan Eğitilmiş ve Sürekli Ön Eğitilmiş Türkçe Modeller

Resumo

Este artigo apresenta os modelos Mecellem, uma estrutura para desenvolver modelos de linguagem especializados para o domínio jurídico turco através de estratégias de adaptação de domínio. Fazemos duas contribuições: (1) **Modelo Codificador Pré-treinado a Partir do Zero**: Codificadores bidirecionais baseados no ModernBERT pré-treinados em um corpus predominantemente turco de 112,7 mil milhões de tokens. Implementamos uma estratégia de seleção de *checkpoints* que avalia o desempenho de recuperação (*retrieval*) em tarefas downstream ao longo do treino, revelando que os *checkpoints* ótimos alcançam os melhores resultados de recuperação antes que a perda do pré-treino atinja o seu mínimo. Os nossos modelos codificadores alcançam classificações entre os três primeiros no *leaderboard* de recuperação em turco, com modelos menores (155M parâmetros) a obter desempenho comparável a modelos de referência maiores (307M-567M parâmetros). A nossa abordagem atinge 92,36% de eficiência de produção em comparação com modelos state-of-the-art (embeddinggemma-300m: 100,00%, BAAI/bge-m3: 99,54%, newmindai/bge-m3-stsb: 94,38%), classificando-se em quarto lugar geral, apesar de requerer menos recursos computacionais. Os modelos SOTA dependem de *pipelines* de treino multiestágio e computacionalmente intensivos, tornando a nossa abordagem de pré-treino em estágio único seguido de pós-treino eficaz uma alternativa economicamente vantajosa; (2) **Modelo Decodificador com Pré-treino Contínuo (CPT)**: Modelos Qwen3-1.7B e Qwen3-4B adaptados ao domínio jurídico turco através de aprendizagem curricular controlada. Um CPT de quatro fases com rácios de amostra ótimos permite uma transição gradual do conhecimento linguístico geral para a terminologia jurídica especializada e o raciocínio de contexto longo. Esta abordagem alcança uma redução de 36,2% na perplexidade em texto jurídico turco, demonstrando ganhos na adaptação de domínio.

English

This paper presents Mecellem models, a framework for developing specialized language models for the Turkish legal domain through domain adaptation strategies. We make two contributions: (1)Encoder Model Pre-trained from Scratch: ModernBERT-based bidirectional encoders pre-trained on a Turkish-dominant corpus of 112.7 billion tokens. We implement a checkpoint selection strategy that evaluates downstream retrieval performance throughout training, revealing that optimal checkpoints achieve best retrieval scores before pre-training loss reaches its minimum. Our encoder models achieve top-3 rankings on the Turkish retrieval leaderboard, with smaller models (155M parameters) achieving comparable performance to larger reference models (307M-567M parameters). Our approach achieves 92.36% production efficiency compared to state-of-the-art models (embeddinggemma-300m: 100.00%, BAAI/bge-m3: 99.54%, newmindai/bge-m3-stsb: 94.38%), ranking fourth overall despite requiring less computational resources. SOTA models rely on multi-stage, computationally intensive training pipelines, making our single-stage pre-training followed by efficient post-training approach a cost-effective alternative; (2)Decoder Model with Continual Pre-training (CPT): Qwen3-1.7B and Qwen3-4B models adapted to Turkish legal domain through controlled curriculum learning. Four-phase CPT with optimal sample ratios enables gradual transition from general language knowledge to specialized legal terminology and long-context reasoning. This approach achieves 36.2% perplexity reduction on Turkish legal text, demonstrating domain adaptation gains.

Mecellem Modelleri: Hukuk Alanında Sıfırdan Eğitilmiş ve Sürekli Ön Eğitilmiş Türkçe Modeller

Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain

Resumo

Support