ChatPaper.aiChatPaper

메젤렘 모델: 법률 도메인을 위해 처음부터 훈련되고 지속적 사전 훈련된 튀르키예 모델

Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain

January 22, 2026
저자: Özgür Uğur, Mahmut Göksu, Mahmut Çimen, Musa Yılmaz, Esra Şavirdi, Alp Talha Demir, Rumeysa Güllüce, İclal Çetin, Ömer Can Sağbaş
cs.AI

초록

본 논문은 도메인 적응 전략을 통해 터키 법률 도메인에 특화된 언어 모델을 개발하는 프레임워크인 Mecellem 모델을 제시한다. 우리의 기여는 다음과 같다: (1) 처음부터 사전 학습된 인코더 모델: 1127억 토큰 규모의 터키어 중심 코퍼스로 사전 학습된 ModernBERT 기반 양방향 인코더. 학습 전 과정에 걸쳐 하류 작업의 검색 성능을 평가하는 체크포인트 선정 전략을 도입하여, 사전 학습 손실이 최소값에 도달하기 전에 최적의 체크포인트가 검색 점수에서 최고 성능을 달성함을 확인했다. 우리의 인코더 모델은 터키어 검색 리더보드에서 상위 3위 안에 랭크되며, 더 작은 모델(1억 5500만 매개변수)이 더 큰 참조 모델(3억 700만-5억 6700만 매개변수)에 필적하는 성능을 보인다. 우리의 접근법은 SOTA(State-of-the-Art) 모델(embeddinggemma-300m: 100.00%, BAAI/bge-m3: 99.54%, newmindai/bge-m3-stsb: 94.38%) 대비 92.36%의 생산 효율성을 달성하여, 더 적은 계산 자원을 요구함에도 불구하고 전체 4위를 기록했다. SOTA 모델이 다단계의 계산 집약적 학습 파이프라인에 의존하는 반면, 우리의 단일 단계 사전 학습과 효율적인 사후 학습 접근법은 비용 효율적인 대안을 제시한다; (2) 지속적 사전 학습(CPT)을 적용한 디코더 모델: Qwen3-1.7B 및 Qwen3-4B 모델을 통제된 커리큘럼 학습을 통해 터키 법률 도메인에 적응시킴. 최적의 표본 비율을 적용한 4단계 CPT를 통해 일반 언어 지식에서 특화된 법률 용어 및 장문 맥락 추론으로의 점진적 전환이 가능하다. 이 접근법은 터키어 법률 텍스트에서 36.2%의 퍼플렉서티 감소를 달성하여 도메인 적응의 효과를 입증한다.
English
This paper presents Mecellem models, a framework for developing specialized language models for the Turkish legal domain through domain adaptation strategies. We make two contributions: (1)Encoder Model Pre-trained from Scratch: ModernBERT-based bidirectional encoders pre-trained on a Turkish-dominant corpus of 112.7 billion tokens. We implement a checkpoint selection strategy that evaluates downstream retrieval performance throughout training, revealing that optimal checkpoints achieve best retrieval scores before pre-training loss reaches its minimum. Our encoder models achieve top-3 rankings on the Turkish retrieval leaderboard, with smaller models (155M parameters) achieving comparable performance to larger reference models (307M-567M parameters). Our approach achieves 92.36% production efficiency compared to state-of-the-art models (embeddinggemma-300m: 100.00%, BAAI/bge-m3: 99.54%, newmindai/bge-m3-stsb: 94.38%), ranking fourth overall despite requiring less computational resources. SOTA models rely on multi-stage, computationally intensive training pipelines, making our single-stage pre-training followed by efficient post-training approach a cost-effective alternative; (2)Decoder Model with Continual Pre-training (CPT): Qwen3-1.7B and Qwen3-4B models adapted to Turkish legal domain through controlled curriculum learning. Four-phase CPT with optimal sample ratios enables gradual transition from general language knowledge to specialized legal terminology and long-context reasoning. This approach achieves 36.2% perplexity reduction on Turkish legal text, demonstrating domain adaptation gains.
PDF73January 27, 2026