Diffutron: Маскированная диффузионная языковая модель для турецкого языка
Diffutron: A Masked Diffusion Language Model for Turkish Language
March 20, 2026
Авторы: Şuayp Talha Kocabay, Talha Rüzgar Akkuş
cs.AI
Аннотация
Маскированные диффузионные языковые модели (MDLM) стали перспективной неавторегрессионной альтернативой стандартным большим языковым моделям, однако их применение к языкам с богатой морфологией остается ограниченным. В данной статье мы представляем Diffutron — маскированную диффузионную языковую модель, специально разработанную для турецкого языка. Наш подход использует ресурсоэффективный конвейер обучения, начинающийся с непрерывного дообучения многоязычного энкодера на крупномасштабном корпусе с помощью LoRA. Для обеспечения генеративных возможностей мы применяем стратегию прогрессивной инструктивной настройки, последовательно адаптируя модель на общих и специализированных наборах инструкций. Результаты экспериментов на комплексных бенчмарках демонстрируют, что, несмотря на компактный размер, наша модель достигает конкурентоспособной производительности по сравнению с существующими многомиллиардными базовыми моделями. Эти результаты подтверждают эффективность сочетания маскированного диффузионного моделирования с многоэтапной настройкой для неавторегрессионной генерации текста на турецком языке.
English
Masked Diffusion Language Models (MDLMs) have emerged as a compelling non-autoregressive alternative to standard large language models; however, their application to morphologically rich languages remains limited. In this paper, we introduce Diffutron, a masked diffusion language model specifically designed for Turkish. Our approach leverages a resource-efficient training pipeline, starting with LoRA-based continual pre-training of a multilingual encoder on a large-scale corpus. To enable generative capabilities, we employ a progressive instruction-tuning strategy, sequentially adapting the model on general and task-specific instruction sets. Experimental results across comprehensive benchmarks demonstrate that, despite its compact size, our model achieves competitive performance compared to existing multi-billion-parameter baselines. These findings validate the effectiveness of masked diffusion modeling combined with multi-stage tuning for non-autoregressive text generation in Turkish.