REPA-E: Desbloqueando VAE para ajuste de extremo a extremo con difusión latente en Transformers

Resumen

En este artículo abordamos una pregunta fundamental: "¿Podemos entrenar modelos de difusión latente junto con el tokenizador de auto-codificadores variacionales (VAE) de manera integral?" La sabiduría tradicional del aprendizaje profundo sugiere que el entrenamiento integral es preferible cuando es posible. Sin embargo, para los transformadores de difusión latente, se observa que el entrenamiento integral tanto del VAE como del modelo de difusión utilizando la pérdida estándar de difusión es ineficaz, incluso causando una degradación en el rendimiento final. Demostramos que, aunque la pérdida de difusión es ineficaz, el entrenamiento integral puede habilitarse mediante la pérdida de alineación de representaciones (REPA), permitiendo que tanto el VAE como el modelo de difusión se ajusten conjuntamente durante el proceso de entrenamiento. A pesar de su simplicidad, la receta de entrenamiento propuesta (REPA-E) muestra un rendimiento notable; acelerando el entrenamiento del modelo de difusión en más de 17x y 45x en comparación con las recetas de entrenamiento REPA y estándar, respectivamente. Curiosamente, observamos que el ajuste integral con REPA-E también mejora el VAE en sí; conduciendo a una estructura mejorada del espacio latente y a un mejor rendimiento en la generación posterior. En términos de rendimiento final, nuestro enfoque establece un nuevo estado del arte; logrando un FID de 1.26 y 1.83 con y sin guía libre de clasificador en ImageNet 256 x 256. El código está disponible en https://end2end-diffusion.github.io.

English

In this paper we tackle a fundamental question: "Can we train latent diffusion models together with the variational auto-encoder (VAE) tokenizer in an end-to-end manner?" Traditional deep-learning wisdom dictates that end-to-end training is often preferable when possible. However, for latent diffusion transformers, it is observed that end-to-end training both VAE and diffusion-model using standard diffusion-loss is ineffective, even causing a degradation in final performance. We show that while diffusion loss is ineffective, end-to-end training can be unlocked through the representation-alignment (REPA) loss -- allowing both VAE and diffusion model to be jointly tuned during the training process. Despite its simplicity, the proposed training recipe (REPA-E) shows remarkable performance; speeding up diffusion model training by over 17x and 45x over REPA and vanilla training recipes, respectively. Interestingly, we observe that end-to-end tuning with REPA-E also improves the VAE itself; leading to improved latent space structure and downstream generation performance. In terms of final performance, our approach sets a new state-of-the-art; achieving FID of 1.26 and 1.83 with and without classifier-free guidance on ImageNet 256 x 256. Code is available at https://end2end-diffusion.github.io.

REPA-E: Desbloqueando VAE para ajuste de extremo a extremo con difusión latente en Transformers

REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers

Resumen

Support