Apprendimento Trasferito per Modelli di Diffusione del Testo

Abstract

In questo rapporto, esploriamo il potenziale della diffusione di testo per sostituire il decoding autoregressivo (AR) nell'addestramento e nel deployment di grandi modelli linguistici (LLM). Siamo particolarmente interessati a verificare se i modelli AR preaddestrati possano essere trasformati in modelli di diffusione di testo attraverso una procedura di adattamento leggera che chiamiamo "AR2Diff". Iniziamo stabilendo una configurazione di base solida per l'addestramento di modelli di diffusione di testo. Confrontando diverse architetture e obiettivi di preaddestramento, scopriamo che addestrare un modello decoder-only con un obiettivo di linguaggio a prefisso (prefix LM) è il migliore o quasi il migliore in diverse attività. Basandoci su questa scoperta, testiamo varie configurazioni di transfer learning per i modelli di diffusione di testo. Nella traduzione automatica, osserviamo che la diffusione di testo ha prestazioni inferiori rispetto all'approccio AR standard. Tuttavia, nella sintesi di codice e nelle domande a risposta estrattiva (extractive QA), i modelli di diffusione addestrati da zero superano i modelli AR in molti casi. Osserviamo anche miglioramenti qualitativi derivanti da AR2Diff, ovvero l'adattamento di modelli AR per utilizzare il decoding a diffusione. Questi risultati sono promettenti, considerando che la diffusione di testo è relativamente poco esplorata e può essere significativamente più veloce del decoding AR per la generazione di testi lunghi.

English

In this report, we explore the potential for text diffusion to replace autoregressive (AR) decoding for the training and deployment of large language models (LLMs). We are particularly interested to see whether pretrained AR models can be transformed into text diffusion models through a lightweight adaptation procedure we call ``AR2Diff''. We begin by establishing a strong baseline setup for training text diffusion models. Comparing across multiple architectures and pretraining objectives, we find that training a decoder-only model with a prefix LM objective is best or near-best across several tasks. Building on this finding, we test various transfer learning setups for text diffusion models. On machine translation, we find that text diffusion underperforms the standard AR approach. However, on code synthesis and extractive QA, we find diffusion models trained from scratch outperform AR models in many cases. We also observe quality gains from AR2Diff -- adapting AR models to use diffusion decoding. These results are promising given that text diffusion is relatively underexplored and can be significantly faster than AR decoding for long text generation.

Apprendimento Trasferito per Modelli di Diffusione del Testo

Transfer Learning for Text Diffusion Models

Abstract

Support