ChatPaper.aiChatPaper

Mecellem Modelos: Modelos Turcos Entrenados desde Cero y Preentrenados Continuamente para el Dominio Legal

Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain

January 22, 2026
Autores: Özgür Uğur, Mahmut Göksu, Mahmut Çimen, Musa Yılmaz, Esra Şavirdi, Alp Talha Demir, Rumeysa Güllüce, İclal Çetin, Ömer Can Sağbaş
cs.AI

Resumen

Este artículo presenta los modelos Mecellem, un marco para desarrollar modelos de lenguaje especializados para el dominio legal turco mediante estrategias de adaptación de dominio. Realizamos dos contribuciones: (1) Modelo Codificador Pre-entrenado desde Cero: Codificadores bidireccionales basados en ModernBERT pre-entrenados en un corpus predominantemente turco de 112.7 mil millones de tokens. Implementamos una estrategia de selección de puntos de control que evalúa el rendimiento en recuperación de información (retrieval) durante el entrenamiento, revelando que los puntos de control óptimos alcanzan los mejores puntajes de recuperación antes de que la pérdida del pre-entrenamiento llegue a su mínimo. Nuestros modelos codificadores alcanzan clasificaciones entre los tres primeros puestos en el ranking de recuperación en turco, con modelos más pequeños (155M parámetros) logrando un rendimiento comparable al de modelos de referencia más grandes (307M-567M parámetros). Nuestro enfoque alcanza un 92.36% de eficiencia en producción en comparación con modelos de última generación (embeddinggemma-300m: 100.00%, BAAI/bge-m3: 99.54%, newmindai/bge-m3-stsb: 94.38%), ocupando el cuarto lugar general a pesar de requerir menos recursos computacionales. Los modelos SOTA dependen de pipelines de entrenamiento multi-etapa y computacionalmente intensivos, lo que convierte a nuestro enfoque de pre-entrenamiento en una sola etapa seguido de un post-entrenamiento eficiente en una alternativa rentable; (2) Modelo Decodificador con Pre-entrenamiento Continuo (CPT): Modelos Qwen3-1.7B y Qwen3-4B adaptados al dominio legal turco mediante aprendizaje curricular controlado. Un CPT de cuatro fases con proporciones de muestra óptimas permite una transición gradual desde el conocimiento lingüístico general hacia la terminología legal especializada y el razonamiento de contexto largo. Este enfoque logra una reducción del 36.2% en la perplejidad sobre texto legal turco, demostrando las ganancias de la adaptación de dominio.
English
This paper presents Mecellem models, a framework for developing specialized language models for the Turkish legal domain through domain adaptation strategies. We make two contributions: (1)Encoder Model Pre-trained from Scratch: ModernBERT-based bidirectional encoders pre-trained on a Turkish-dominant corpus of 112.7 billion tokens. We implement a checkpoint selection strategy that evaluates downstream retrieval performance throughout training, revealing that optimal checkpoints achieve best retrieval scores before pre-training loss reaches its minimum. Our encoder models achieve top-3 rankings on the Turkish retrieval leaderboard, with smaller models (155M parameters) achieving comparable performance to larger reference models (307M-567M parameters). Our approach achieves 92.36% production efficiency compared to state-of-the-art models (embeddinggemma-300m: 100.00%, BAAI/bge-m3: 99.54%, newmindai/bge-m3-stsb: 94.38%), ranking fourth overall despite requiring less computational resources. SOTA models rely on multi-stage, computationally intensive training pipelines, making our single-stage pre-training followed by efficient post-training approach a cost-effective alternative; (2)Decoder Model with Continual Pre-training (CPT): Qwen3-1.7B and Qwen3-4B models adapted to Turkish legal domain through controlled curriculum learning. Four-phase CPT with optimal sample ratios enables gradual transition from general language knowledge to specialized legal terminology and long-context reasoning. This approach achieves 36.2% perplexity reduction on Turkish legal text, demonstrating domain adaptation gains.
PDF73January 27, 2026