Diffutron : Un modèle de langage à diffusion masquée pour la langue turque

Résumé

Les modèles de langage à diffusion masquée (MDLM) sont apparus comme une alternative non autorégressive convaincante aux grands modèles de langage standards ; cependant, leur application aux langues morphologiquement riches reste limitée. Dans cet article, nous présentons Diffutron, un modèle de langage à diffusion masquée spécialement conçu pour le turc. Notre approche tire parti d'un pipeline d'entraînement économe en ressources, commençant par un pré-entraînement continu basé sur LoRA d'un encodeur multilingue sur un corpus à grande échelle. Pour permettre des capacités génératives, nous utilisons une stratégie d'instruction progressive, adaptant séquentiellement le modèle sur des ensembles d'instructions généraux et spécifiques à une tâche. Les résultats expérimentaux sur des benchmarks complets démontrent que, malgré sa taille compacte, notre modèle atteint des performances compétitives par rapport aux modèles de référence existants de plusieurs milliards de paramètres. Ces résultats valident l'efficacité de la modélisation par diffusion masquée combinée à un réglage en plusieurs étapes pour la génération de texte non autorégressive en turc.

English

Masked Diffusion Language Models (MDLMs) have emerged as a compelling non-autoregressive alternative to standard large language models; however, their application to morphologically rich languages remains limited. In this paper, we introduce Diffutron, a masked diffusion language model specifically designed for Turkish. Our approach leverages a resource-efficient training pipeline, starting with LoRA-based continual pre-training of a multilingual encoder on a large-scale corpus. To enable generative capabilities, we employ a progressive instruction-tuning strategy, sequentially adapting the model on general and task-specific instruction sets. Experimental results across comprehensive benchmarks demonstrate that, despite its compact size, our model achieves competitive performance compared to existing multi-billion-parameter baselines. These findings validate the effectiveness of masked diffusion modeling combined with multi-stage tuning for non-autoregressive text generation in Turkish.

Diffutron : Un modèle de langage à diffusion masquée pour la langue turque

Diffutron: A Masked Diffusion Language Model for Turkish Language

Résumé

Support