Diffutron: Un modelo de lenguaje de difusión enmascarado para el idioma turco

Resumen

Los Modelos de Lenguaje de Difusión Enmascarada (MDLM) han surgido como una alternativa no autoregresiva atractiva a los modelos de lenguaje grandes estándar; sin embargo, su aplicación a lenguas morfológicamente ricas sigue siendo limitada. En este artículo, presentamos Diffutron, un modelo de lenguaje de difusión enmascarada diseñado específicamente para el turco. Nuestro enfoque aprovecha un pipeline de entrenamiento eficiente en recursos, que comienza con un pre-entrenamiento continuo basado en LoRA de un codificador multilingüe sobre un corpus a gran escala. Para habilitar capacidades generativas, empleamos una estrategia de ajuste por instrucciones progresivo, adaptando secuencialmente el modelo en conjuntos de instrucciones generales y específicas de tareas. Los resultados experimentales en benchmarks exhaustivos demuestran que, a pesar de su tamaño compacto, nuestro modelo logra un rendimiento competitivo en comparación con los modelos de referencia existentes de miles de millones de parámetros. Estos hallazgos validan la efectividad del modelado de difusión enmascarada combinado con un ajuste multietapa para la generación de texto no autoregresiva en turco.

English

Masked Diffusion Language Models (MDLMs) have emerged as a compelling non-autoregressive alternative to standard large language models; however, their application to morphologically rich languages remains limited. In this paper, we introduce Diffutron, a masked diffusion language model specifically designed for Turkish. Our approach leverages a resource-efficient training pipeline, starting with LoRA-based continual pre-training of a multilingual encoder on a large-scale corpus. To enable generative capabilities, we employ a progressive instruction-tuning strategy, sequentially adapting the model on general and task-specific instruction sets. Experimental results across comprehensive benchmarks demonstrate that, despite its compact size, our model achieves competitive performance compared to existing multi-billion-parameter baselines. These findings validate the effectiveness of masked diffusion modeling combined with multi-stage tuning for non-autoregressive text generation in Turkish.

Diffutron: Un modelo de lenguaje de difusión enmascarado para el idioma turco

Diffutron: A Masked Diffusion Language Model for Turkish Language

Resumen

Support