Mecellem Models: Турецкие модели, обученные с нуля и дообученные для юридической сферы
Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain
January 22, 2026
Авторы: Özgür Uğur, Mahmut Göksu, Mahmut Çimen, Musa Yılmaz, Esra Şavirdi, Alp Talha Demir, Rumeysa Güllüce, İclal Çetin, Ömer Can Sağbaş
cs.AI
Аннотация
В данной статье представлены модели Mecellem — фреймворк для разработки специализированных языковых моделей для турецкой юридической области с помощью стратегий адаптации к предметной области. Мы вносим два основных вклада: (1) **Энкодерная модель, предобученная с нуля**: двунаправленные энкодеры на основе ModernBERT, предобученные на корпусе объемом 112,7 млрд токенов с преобладанием турецкого языка. Мы реализуем стратегию выбора контрольных точек, которая оценивает производительность поиска на протяжении всего обучения, показывая, что оптимальные контрольные точки достигают наилучших результатов поиска до того, как функция потерь предобучения достигает минимума. Наши модели-энкодеры занимают позиции в топ-3 турецкого лидерборда по поиску, при этом меньшие модели (155 млн параметров) демонстрируют сопоставимую производительность с более крупными референсными моделями (307–567 млн параметров). Наш подход обеспечивает 92,36% производственной эффективности по сравнению с современными моделями (embeddinggemma-300m: 100,00%, BAAI/bge-m3: 99,54%, newmindai/bge-m3-stsb: 94,38%), занимая четвертое место в общем рейтинге, несмотря на требование меньших вычислительных ресурсов. SOTA-модели полагаются на многоэтапные, вычислительно затратные конвейеры обучения, что делает наш подход — одноэтапное предобучение с последующим эффективным пост-тренингом — экономичной альтернативой; (2) **Декодерная модель с непрерывным предобучением (CPT)**: модели Qwen3-1.7B и Qwen3-4B, адаптированные к турецкой юридической области посредством контролируемого обучения по учебному плану. Четырехфазное CPT с оптимальными соотношениями выборок позволяет осуществить плавный переход от общих языковых знаний к специализированной юридической терминологии и рассуждениям в длинном контексте. Данный подход обеспечивает снижение перплексии на 36,2% для турецких юридических текстов, демонстрируя преимущества адаптации к домену.
English
This paper presents Mecellem models, a framework for developing specialized language models for the Turkish legal domain through domain adaptation strategies. We make two contributions: (1)Encoder Model Pre-trained from Scratch: ModernBERT-based bidirectional encoders pre-trained on a Turkish-dominant corpus of 112.7 billion tokens. We implement a checkpoint selection strategy that evaluates downstream retrieval performance throughout training, revealing that optimal checkpoints achieve best retrieval scores before pre-training loss reaches its minimum. Our encoder models achieve top-3 rankings on the Turkish retrieval leaderboard, with smaller models (155M parameters) achieving comparable performance to larger reference models (307M-567M parameters). Our approach achieves 92.36% production efficiency compared to state-of-the-art models (embeddinggemma-300m: 100.00%, BAAI/bge-m3: 99.54%, newmindai/bge-m3-stsb: 94.38%), ranking fourth overall despite requiring less computational resources. SOTA models rely on multi-stage, computationally intensive training pipelines, making our single-stage pre-training followed by efficient post-training approach a cost-effective alternative; (2)Decoder Model with Continual Pre-training (CPT): Qwen3-1.7B and Qwen3-4B models adapted to Turkish legal domain through controlled curriculum learning. Four-phase CPT with optimal sample ratios enables gradual transition from general language knowledge to specialized legal terminology and long-context reasoning. This approach achieves 36.2% perplexity reduction on Turkish legal text, demonstrating domain adaptation gains.