Diffutron: Ein maskiertes Diffusionssprachmodell für die türkische Sprache

Zusammenfassung

Masked Diffusion Language Models (MDLMs) haben sich als überzeugende nicht-autoregressive Alternative zu standardmäßigen großen Sprachmodellen etabliert; ihre Anwendung auf morphologisch reiche Sprachen ist jedoch nach wie vor begrenzt. In diesem Beitrag stellen wir Diffutron vor, ein speziell für das Türkische entwickeltes Masked-Diffusion-Sprachmodell. Unser Ansatz nutzt eine ressourceneffiziente Trainingspipeline, die mit einem fortlaufenden Vor-Training eines multilingualen Encoders auf Basis eines groß angelegten Korpus mittels LoRA beginnt. Um generative Fähigkeiten zu ermöglichen, setzen wir eine progressive Instruction-Tuning-Strategie ein, bei der das Modell sequenziell an allgemeine und aufgabenspezifische Instruktionsdatensätze angepasst wird. Experimentelle Ergebnisse umfassender Benchmarks zeigen, dass unser Modell trotz seiner kompakten Größe eine wettbewerbsfähige Leistung im Vergleich zu existierenden Multi-Milliarden-Parameter-Baselines erzielt. Diese Ergebnisse validieren die Wirksamkeit von Masked-Diffusion-Modellierung in Kombination mit mehrstufigem Tuning für nicht-autoregressive Textgenerierung im Türkischen.

English

Masked Diffusion Language Models (MDLMs) have emerged as a compelling non-autoregressive alternative to standard large language models; however, their application to morphologically rich languages remains limited. In this paper, we introduce Diffutron, a masked diffusion language model specifically designed for Turkish. Our approach leverages a resource-efficient training pipeline, starting with LoRA-based continual pre-training of a multilingual encoder on a large-scale corpus. To enable generative capabilities, we employ a progressive instruction-tuning strategy, sequentially adapting the model on general and task-specific instruction sets. Experimental results across comprehensive benchmarks demonstrate that, despite its compact size, our model achieves competitive performance compared to existing multi-billion-parameter baselines. These findings validate the effectiveness of masked diffusion modeling combined with multi-stage tuning for non-autoregressive text generation in Turkish.

Diffutron: Ein maskiertes Diffusionssprachmodell für die türkische Sprache

Diffutron: A Masked Diffusion Language Model for Turkish Language

Zusammenfassung

Support