Transfer-Lernen für Text-Diffusionsmodelle

papers.abstract

In diesem Bericht untersuchen wir das Potenzial von Text-Diffusion, um autoregressives (AR) Decoding für das Training und den Einsatz von großen Sprachmodellen (LLMs) zu ersetzen. Wir sind besonders daran interessiert, ob vortrainierte AR-Modelle durch ein leichtgewichtiges Anpassungsverfahren, das wir „AR2Diff“ nennen, in Text-Diffusion-Modelle umgewandelt werden können. Wir beginnen mit der Einrichtung eines soliden Baseline-Setups für das Training von Text-Diffusion-Modellen. Beim Vergleich verschiedener Architekturen und Vortrainingsziele stellen wir fest, dass das Training eines Decoder-only-Modells mit einem Prefix-LM-Ziel bei mehreren Aufgaben am besten oder nahezu am besten abschneidet. Aufbauend auf dieser Erkenntnis testen wir verschiedene Transfer-Learning-Setups für Text-Diffusion-Modelle. Bei der maschinellen Übersetzung stellen wir fest, dass Text-Diffusion dem standardmäßigen AR-Ansatz unterlegen ist. Bei der Code-Synthese und extraktiven Frage-Antwort-Aufgaben (extractive QA) hingegen übertreffen von Grund auf trainierte Diffusion-Modelle in vielen Fällen AR-Modelle. Wir beobachten auch Qualitätsverbesserungen durch AR2Diff – die Anpassung von AR-Modellen zur Verwendung von Diffusion-Decoding. Diese Ergebnisse sind vielversprechend, da Text-Diffusion relativ wenig erforscht ist und für die Erzeugung langer Texte deutlich schneller als AR-Decoding sein kann.

English

In this report, we explore the potential for text diffusion to replace autoregressive (AR) decoding for the training and deployment of large language models (LLMs). We are particularly interested to see whether pretrained AR models can be transformed into text diffusion models through a lightweight adaptation procedure we call ``AR2Diff''. We begin by establishing a strong baseline setup for training text diffusion models. Comparing across multiple architectures and pretraining objectives, we find that training a decoder-only model with a prefix LM objective is best or near-best across several tasks. Building on this finding, we test various transfer learning setups for text diffusion models. On machine translation, we find that text diffusion underperforms the standard AR approach. However, on code synthesis and extractive QA, we find diffusion models trained from scratch outperform AR models in many cases. We also observe quality gains from AR2Diff -- adapting AR models to use diffusion decoding. These results are promising given that text diffusion is relatively underexplored and can be significantly faster than AR decoding for long text generation.

Transfer-Lernen für Text-Diffusionsmodelle

Transfer Learning for Text Diffusion Models

papers.abstract

Support