Apprendimento Trasferito per Modelli di Diffusione del Testo
Transfer Learning for Text Diffusion Models
January 30, 2024
Autori: Kehang Han, Kathleen Kenealy, Aditya Barua, Noah Fiedel, Noah Constant
cs.AI
Abstract
In questo rapporto, esploriamo il potenziale della diffusione di testo per sostituire il decoding autoregressivo (AR) nell'addestramento e nel deployment di grandi modelli linguistici (LLM). Siamo particolarmente interessati a verificare se i modelli AR preaddestrati possano essere trasformati in modelli di diffusione di testo attraverso una procedura di adattamento leggera che chiamiamo "AR2Diff". Iniziamo stabilendo una configurazione di base solida per l'addestramento di modelli di diffusione di testo. Confrontando diverse architetture e obiettivi di preaddestramento, scopriamo che addestrare un modello decoder-only con un obiettivo di linguaggio a prefisso (prefix LM) è il migliore o quasi il migliore in diverse attività. Basandoci su questa scoperta, testiamo varie configurazioni di transfer learning per i modelli di diffusione di testo. Nella traduzione automatica, osserviamo che la diffusione di testo ha prestazioni inferiori rispetto all'approccio AR standard. Tuttavia, nella sintesi di codice e nelle domande a risposta estrattiva (extractive QA), i modelli di diffusione addestrati da zero superano i modelli AR in molti casi. Osserviamo anche miglioramenti qualitativi derivanti da AR2Diff, ovvero l'adattamento di modelli AR per utilizzare il decoding a diffusione. Questi risultati sono promettenti, considerando che la diffusione di testo è relativamente poco esplorata e può essere significativamente più veloce del decoding AR per la generazione di testi lunghi.
English
In this report, we explore the potential for text diffusion to replace
autoregressive (AR) decoding for the training and deployment of large language
models (LLMs). We are particularly interested to see whether pretrained AR
models can be transformed into text diffusion models through a lightweight
adaptation procedure we call ``AR2Diff''. We begin by establishing a strong
baseline setup for training text diffusion models. Comparing across multiple
architectures and pretraining objectives, we find that training a decoder-only
model with a prefix LM objective is best or near-best across several tasks.
Building on this finding, we test various transfer learning setups for text
diffusion models. On machine translation, we find that text diffusion
underperforms the standard AR approach. However, on code synthesis and
extractive QA, we find diffusion models trained from scratch outperform AR
models in many cases. We also observe quality gains from AR2Diff -- adapting AR
models to use diffusion decoding. These results are promising given that text
diffusion is relatively underexplored and can be significantly faster than AR
decoding for long text generation.