Mecellem Modelleri : Hukuk Alanında Sıfırdan Eğitilmiş ve Sürekli Ön Eğitilmiş Türk Modelleri

Résumé

Ce document présente les modèles Mecellem, un cadre pour développer des modèles de langage spécialisés pour le domaine juridique turc grâce à des stratégies d'adaptation de domaine. Nous apportons deux contributions principales : (1) Un modèle encodeur pré-entraîné à partir de zéro : des encodeurs bidirectionnels basés sur ModernBERT, pré-entraînés sur un corpus majoritairement turc de 112,7 milliards de tokens. Nous mettons en œuvre une stratégie de sélection de points de contrôle qui évalue les performances en retrieval en aval tout au long de l'entraînement, révélant que les points de contrôle optimaux atteignent les meilleurs scores de retrieval avant que la perte de pré-entraînement n'atteigne son minimum. Nos modèles encodeurs se classent dans le top 3 du classement turc en retrieval, les modèles plus petits (155 millions de paramètres) obtenant des performances comparables à des modèles de référence plus grands (307 à 567 millions de paramètres). Notre approche atteint une efficacité de production de 92,36 % par rapport aux modèles de l'état de l'art (embeddinggemma-300m : 100,00 %, BAAI/bge-m3 : 99,54 %, newmindai/bge-m3-stsb : 94,38 %), se classant quatrième au global malgré des besoins en ressources computationnelles moindres. Les modèles SOTA reposent sur des pipelines d'entraînement multi-étapes et intensifs en calcul, faisant de notre approche en une seule étape de pré-entraînement suivie d'un post-entraînement efficace une alternative économique ; (2) Un modèle décodeur avec pré-entraînement continu (CPT) : les modèles Qwen3-1.7B et Qwen3-4B adaptés au domaine juridique turc via un apprentissage curriculaire contrôlé. Un CPT en quatre phases avec des ratios d'échantillonnage optimaux permet une transition progressive des connaissances linguistiques générales vers la terminologie juridique spécialisée et le raisonnement en contexte long. Cette approche permet une réduction de 36,2 % de la perplexité sur le texte juridique turc, démontrant les gains de l'adaptation de domaine.

English

This paper presents Mecellem models, a framework for developing specialized language models for the Turkish legal domain through domain adaptation strategies. We make two contributions: (1)Encoder Model Pre-trained from Scratch: ModernBERT-based bidirectional encoders pre-trained on a Turkish-dominant corpus of 112.7 billion tokens. We implement a checkpoint selection strategy that evaluates downstream retrieval performance throughout training, revealing that optimal checkpoints achieve best retrieval scores before pre-training loss reaches its minimum. Our encoder models achieve top-3 rankings on the Turkish retrieval leaderboard, with smaller models (155M parameters) achieving comparable performance to larger reference models (307M-567M parameters). Our approach achieves 92.36% production efficiency compared to state-of-the-art models (embeddinggemma-300m: 100.00%, BAAI/bge-m3: 99.54%, newmindai/bge-m3-stsb: 94.38%), ranking fourth overall despite requiring less computational resources. SOTA models rely on multi-stage, computationally intensive training pipelines, making our single-stage pre-training followed by efficient post-training approach a cost-effective alternative; (2)Decoder Model with Continual Pre-training (CPT): Qwen3-1.7B and Qwen3-4B models adapted to Turkish legal domain through controlled curriculum learning. Four-phase CPT with optimal sample ratios enables gradual transition from general language knowledge to specialized legal terminology and long-context reasoning. This approach achieves 36.2% perplexity reduction on Turkish legal text, demonstrating domain adaptation gains.

Mecellem Modelleri : Hukuk Alanında Sıfırdan Eğitilmiş ve Sürekli Ön Eğitilmiş Türk Modelleri

Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain

Résumé

Support