Diffutron: Een Gemaskeerd Diffusie Taalmodel voor de Turkse Taal

Samenvatting

Gemaskerde diffusie-taalmmodellen (MDLM's) zijn naar voren gekomen als een boeiend niet-autoregressief alternatief voor standaard grote taalmmodellen; hun toepassing op morfologisch rijke talen blijft echter beperkt. In dit artikel introduceren we Diffutron, een gemaskerd diffusie-taalmodel dat specifiek is ontworpen voor het Turks. Onze aanpak benut een resource-efficiënt trainingspijplijn, beginnend met LoRA-gebaseerde continue voortraining van een meertalige encoder op een grootschalig corpus. Om generatieve mogelijkheden mogelijk te maken, hanteren we een progressieve instructie-afstemmingsstrategie, waarbij het model sequentieel wordt aangepast op algemene en taakspecifieke instructiesets. Experimentele resultaten op uitgebreide benchmarks tonen aan dat ons model, ondanks zijn compacte formaat, competitieve prestaties bereikt in vergelijking met bestaande baseline-modellen met miljarden parameters. Deze bevindingen valideren de effectiviteit van gemaskerde diffusiemodellering gecombineerd met meerfasige afstemming voor niet-autoregressieve tekstgeneratie in het Turks.

English

Masked Diffusion Language Models (MDLMs) have emerged as a compelling non-autoregressive alternative to standard large language models; however, their application to morphologically rich languages remains limited. In this paper, we introduce Diffutron, a masked diffusion language model specifically designed for Turkish. Our approach leverages a resource-efficient training pipeline, starting with LoRA-based continual pre-training of a multilingual encoder on a large-scale corpus. To enable generative capabilities, we employ a progressive instruction-tuning strategy, sequentially adapting the model on general and task-specific instruction sets. Experimental results across comprehensive benchmarks demonstrate that, despite its compact size, our model achieves competitive performance compared to existing multi-billion-parameter baselines. These findings validate the effectiveness of masked diffusion modeling combined with multi-stage tuning for non-autoregressive text generation in Turkish.

Diffutron: Een Gemaskeerd Diffusie Taalmodel voor de Turkse Taal

Diffutron: A Masked Diffusion Language Model for Turkish Language

Samenvatting

Support