Diffutron: Un Modello Linguistico a Diffusione Mascherata per la Lingua Turca

Abstract

I modelli linguistici a diffusione mascherata (MDLM) sono emersi come una valida alternativa non autoregressiva ai modelli linguistici su larga scala standard; tuttavia, la loro applicazione alle lingue morfologicamente ricche rimane limitata. In questo articolo presentiamo Diffutron, un modello linguistico a diffusione mascherata specificamente progettato per il turco. Il nostro approccio sfrutta una pipeline di addestramento efficiente in termini di risorse, che inizia con un pre-addestramento continuo basato su LoRA di un encoder multilingue su un corpus di larga scala. Per abilitare capacità generative, impieghiamo una strategia di instruction-tuning progressivo, adattando sequenzialmente il modello su set di istruzioni generali e specifici per compito. I risultati sperimentali su benchmark completi dimostrano che, nonostante le dimensioni compatte, il nostro modello raggiunge prestazioni competitive rispetto ai baseline esistenti con parametri nell'ordine dei miliardi. Questi risultati convalidano l'efficacia della modellazione a diffusione mascherata combinata con una messa a punto multi-stadio per la generazione di testo non autoregressiva in turco.

English

Masked Diffusion Language Models (MDLMs) have emerged as a compelling non-autoregressive alternative to standard large language models; however, their application to morphologically rich languages remains limited. In this paper, we introduce Diffutron, a masked diffusion language model specifically designed for Turkish. Our approach leverages a resource-efficient training pipeline, starting with LoRA-based continual pre-training of a multilingual encoder on a large-scale corpus. To enable generative capabilities, we employ a progressive instruction-tuning strategy, sequentially adapting the model on general and task-specific instruction sets. Experimental results across comprehensive benchmarks demonstrate that, despite its compact size, our model achieves competitive performance compared to existing multi-billion-parameter baselines. These findings validate the effectiveness of masked diffusion modeling combined with multi-stage tuning for non-autoregressive text generation in Turkish.

Diffutron: Un Modello Linguistico a Diffusione Mascherata per la Lingua Turca

Diffutron: A Masked Diffusion Language Model for Turkish Language

Abstract

Support