Transferencia de Aprendizaje para Modelos de Difusión de Texto
Transfer Learning for Text Diffusion Models
January 30, 2024
Autores: Kehang Han, Kathleen Kenealy, Aditya Barua, Noah Fiedel, Noah Constant
cs.AI
Resumen
En este informe, exploramos el potencial de la difusión de texto para reemplazar la decodificación autorregresiva (AR) en el entrenamiento y despliegue de modelos de lenguaje de gran escala (LLMs). Estamos particularmente interesados en ver si los modelos AR preentrenados pueden transformarse en modelos de difusión de texto mediante un procedimiento de adaptación ligero que denominamos ``AR2Diff''. Comenzamos estableciendo una configuración de referencia sólida para el entrenamiento de modelos de difusión de texto. Al comparar múltiples arquitecturas y objetivos de preentrenamiento, encontramos que entrenar un modelo de solo decodificación con un objetivo de lenguaje con prefijo es el mejor o casi el mejor en varias tareas. Basándonos en este hallazgo, probamos diversas configuraciones de transferencia de aprendizaje para modelos de difusión de texto. En traducción automática, encontramos que la difusión de texto tiene un rendimiento inferior al enfoque AR estándar. Sin embargo, en síntesis de código y QA extractivo, encontramos que los modelos de difusión entrenados desde cero superan a los modelos AR en muchos casos. También observamos mejoras en la calidad con AR2Diff: la adaptación de modelos AR para usar decodificación por difusión. Estos resultados son prometedores, dado que la difusión de texto está relativamente poco explorada y puede ser significativamente más rápida que la decodificación AR para la generación de textos largos.
English
In this report, we explore the potential for text diffusion to replace
autoregressive (AR) decoding for the training and deployment of large language
models (LLMs). We are particularly interested to see whether pretrained AR
models can be transformed into text diffusion models through a lightweight
adaptation procedure we call ``AR2Diff''. We begin by establishing a strong
baseline setup for training text diffusion models. Comparing across multiple
architectures and pretraining objectives, we find that training a decoder-only
model with a prefix LM objective is best or near-best across several tasks.
Building on this finding, we test various transfer learning setups for text
diffusion models. On machine translation, we find that text diffusion
underperforms the standard AR approach. However, on code synthesis and
extractive QA, we find diffusion models trained from scratch outperform AR
models in many cases. We also observe quality gains from AR2Diff -- adapting AR
models to use diffusion decoding. These results are promising given that text
diffusion is relatively underexplored and can be significantly faster than AR
decoding for long text generation.