Mecellem Modeller: Vanaf Nul Getrainde en Continu Voorgetrainde Turkse Modellen voor het Juridisch Domein

Samenvatting

Dit artikel presenteert Mecellem-modellen, een raamwerk voor het ontwikkelen van gespecialiseerde taalmodellen voor het Turkse juridische domein via domeinadaptatiestrategieën. Wij leveren twee bijdragen: (1) Encoder-model van Scratch Voorgetraind: Bidirectionele encoders op basis van ModernBERT, voorgetraind op een Turks-dominant corpus van 112,7 miljard tokens. Wij implementeren een checkpoint-selectiestrategie die de downstream-retrievalprestatie gedurende de training evalueert, waaruit blijkt dat optimale checkpoints de beste retrievalscores behalen voordat de voortrainingsverlies zijn minimum bereikt. Onze encodermodellen behalen top-3 posities op het Turkse retrieval leaderboard, waarbij kleinere modellen (155M parameters) vergelijkbare prestaties leveren als grotere referentiemodellen (307M-567M parameters). Onze aanpak bereikt een productie-efficiëntie van 92,36% in vergelijking met state-of-the-art modellen (embeddinggemma-300m: 100,00%, BAAI/bge-m3: 99,54%, newmindai/bge-m3-stsb: 94,38%), en eindigt daarmee op de vierde plaats overall, ondanks het lagere computationele resourceverbruik. SOTA-modellen zijn afhankelijk van meerfasige, computationeel intensieve trainingspijplijnen, waardoor onze aanpak van eenfasige voortraining gevolgd door efficiënte natraining een kosteneffectief alternatief vormt; (2) Decoder-model met Continue Voorpretraining (CPT): Qwen3-1.7B en Qwen3-4B modellen aangepast aan het Turkse juridische domein via gecontroleerd curriculumleren. Vierfasige CPT met optimale sample-ratio's maakt een geleidelijke overgang mogelijk van algemene taalkennis naar gespecialiseerde juridische terminologie en redenering over lange contexten. Deze aanpak bereikt een perplexiteitsreductie van 36,2% op Turkse juridische tekst, wat de winst van domeinadaptatie aantoont.

English

This paper presents Mecellem models, a framework for developing specialized language models for the Turkish legal domain through domain adaptation strategies. We make two contributions: (1)Encoder Model Pre-trained from Scratch: ModernBERT-based bidirectional encoders pre-trained on a Turkish-dominant corpus of 112.7 billion tokens. We implement a checkpoint selection strategy that evaluates downstream retrieval performance throughout training, revealing that optimal checkpoints achieve best retrieval scores before pre-training loss reaches its minimum. Our encoder models achieve top-3 rankings on the Turkish retrieval leaderboard, with smaller models (155M parameters) achieving comparable performance to larger reference models (307M-567M parameters). Our approach achieves 92.36% production efficiency compared to state-of-the-art models (embeddinggemma-300m: 100.00%, BAAI/bge-m3: 99.54%, newmindai/bge-m3-stsb: 94.38%), ranking fourth overall despite requiring less computational resources. SOTA models rely on multi-stage, computationally intensive training pipelines, making our single-stage pre-training followed by efficient post-training approach a cost-effective alternative; (2)Decoder Model with Continual Pre-training (CPT): Qwen3-1.7B and Qwen3-4B models adapted to Turkish legal domain through controlled curriculum learning. Four-phase CPT with optimal sample ratios enables gradual transition from general language knowledge to specialized legal terminology and long-context reasoning. This approach achieves 36.2% perplexity reduction on Turkish legal text, demonstrating domain adaptation gains.

Mecellem Modeller: Vanaf Nul Getrainde en Continu Voorgetrainde Turkse Modellen voor het Juridisch Domein

Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain

Samenvatting

Support