ChatPaper.aiChatPaper

Mecellem-Modelle: Von Grund auf trainierte und kontinuierlich für den Rechtsbereich vortrainierte türkische Modelle

Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain

January 22, 2026
papers.authors: Özgür Uğur, Mahmut Göksu, Mahmut Çimen, Musa Yılmaz, Esra Şavirdi, Alp Talha Demir, Rumeysa Güllüce, İclal Çetin, Ömer Can Sağbaş
cs.AI

papers.abstract

Dieses Papier stellt Mecellem-Modelle vor, einen Rahmen zur Entwicklung spezialisierter Sprachmodelle für den türkischen Rechtsbereich durch Domain-Adaption-Strategien. Wir leisten zwei Beiträge: (1) Encoder-Modell, das von Grund auf vortrainiert wurde: Bidirektionale Encoder auf ModernBERT-Basis, vortrainiert auf einem türkisch-dominierten Korpus von 112,7 Milliarden Tokens. Wir implementieren eine Checkpoint-Auswahlstrategie, die während des Trainings die Retrieval-Leistung downstream evaluiert und zeigt, dass optimale Checkpoints die besten Retrieval-Werte erreichen, bevor der Vortrainierungsverlust sein Minimum erreicht. Unsere Encoder-Modelle erreichen Top-3-Platzierungen im türkischen Retrieval-Ranking, wobei kleinere Modelle (155M Parameter) vergleichbare Leistung zu größeren Referenzmodellen (307M-567M Parameter) erzielen. Unser Ansatz erreicht 92,36% Produktionseffizienz im Vergleich zu State-of-the-Art-Modellen (embeddinggemma-300m: 100,00%, BAAI/bge-m3: 99,54%, newmindai/bge-m3-stsb: 94,38%) und rangiert trotz geringerem Rechenaufwand insgesamt auf Platz vier. SOTA-Modelle basieren auf mehrstufigen, rechenintensiven Trainingspipelines, was unseren Ansatz mit einstufigem Vortraining gefolgt von effizientem Nachtraining zu einer kostengünstigen Alternative macht; (2) Decoder-Modell mit kontinuierlichem Vortraining (CPT): Qwen3-1.7B und Qwen3-4B Modelle, die durch kontrolliertes Curriculum Learning an den türkischen Rechtsbereich angepasst wurden. Vierphasiges CPT mit optimalen Stichprobenverhältnissen ermöglicht den graduellen Übergang von allgemeinem Sprachwissen zu spezialisierter Rechtsterminologie und Langkontext-Verarbeitung. Dieser Ansatz erreicht eine Reduktion der Perplexität um 36,2% auf türkischen Rechtstexten und demonstriert damit die Gewinne durch Domain-Adaption.
English
This paper presents Mecellem models, a framework for developing specialized language models for the Turkish legal domain through domain adaptation strategies. We make two contributions: (1)Encoder Model Pre-trained from Scratch: ModernBERT-based bidirectional encoders pre-trained on a Turkish-dominant corpus of 112.7 billion tokens. We implement a checkpoint selection strategy that evaluates downstream retrieval performance throughout training, revealing that optimal checkpoints achieve best retrieval scores before pre-training loss reaches its minimum. Our encoder models achieve top-3 rankings on the Turkish retrieval leaderboard, with smaller models (155M parameters) achieving comparable performance to larger reference models (307M-567M parameters). Our approach achieves 92.36% production efficiency compared to state-of-the-art models (embeddinggemma-300m: 100.00%, BAAI/bge-m3: 99.54%, newmindai/bge-m3-stsb: 94.38%), ranking fourth overall despite requiring less computational resources. SOTA models rely on multi-stage, computationally intensive training pipelines, making our single-stage pre-training followed by efficient post-training approach a cost-effective alternative; (2)Decoder Model with Continual Pre-training (CPT): Qwen3-1.7B and Qwen3-4B models adapted to Turkish legal domain through controlled curriculum learning. Four-phase CPT with optimal sample ratios enables gradual transition from general language knowledge to specialized legal terminology and long-context reasoning. This approach achieves 36.2% perplexity reduction on Turkish legal text, demonstrating domain adaptation gains.
PDF73January 27, 2026