De Palabras a Píxeles: Un Marco para la Evolución de la Intermodalidad
Flowing from Words to Pixels: A Framework for Cross-Modality Evolution
December 19, 2024
Autores: Qihao Liu, Xi Yin, Alan Yuille, Andrew Brown, Mannat Singh
cs.AI
Resumen
Los modelos de difusión, y su generalización, el emparejamiento de flujos, han tenido un impacto notable en el campo de la generación de medios. Aquí, el enfoque convencional consiste en aprender el mapeo complejo desde una distribución de fuente simple de ruido gaussiano hacia la distribución de medios objetivo. Para tareas cruzadas modales como la generación de texto a imagen, se aprende este mismo mapeo de ruido a imagen incluyendo un mecanismo de condicionamiento en el modelo. Una característica clave, hasta ahora relativamente inexplorada, del emparejamiento de flujos es que, a diferencia de los modelos de Difusión, no están limitados a que la distribución de la fuente sea ruido. Por lo tanto, en este documento, proponemos un cambio de paradigma y planteamos la pregunta de si en su lugar podemos entrenar modelos de emparejamiento de flujos para aprender un mapeo directo desde la distribución de una modalidad a la distribución de otra, evitando así la necesidad tanto de la distribución de ruido como del mecanismo de condicionamiento. Presentamos un marco general y simple, CrossFlow, para el emparejamiento de flujos cruzados. Mostramos la importancia de aplicar Codificadores Variacionales a los datos de entrada, e introducimos un método para permitir la orientación sin clasificador. Sorprendentemente, para texto a imagen, CrossFlow con un transformador básico sin atención cruzada supera ligeramente al emparejamiento de flujos estándar, y demostramos que escala mejor con pasos de entrenamiento y tamaño del modelo, al tiempo que permite operaciones aritméticas latentes interesantes que resultan en ediciones semánticamente significativas en el espacio de salida. Para demostrar la generalizabilidad de nuestro enfoque, también mostramos que CrossFlow está a la par o supera al estado del arte para varias tareas de mapeo cruzado/intra-modal, como la descripción de imágenes, estimación de profundidad y super-resolución de imágenes. Esperamos que este documento contribuya a acelerar el progreso en la generación de medios cruzados.
English
Diffusion models, and their generalization, flow matching, have had a
remarkable impact on the field of media generation. Here, the conventional
approach is to learn the complex mapping from a simple source distribution of
Gaussian noise to the target media distribution. For cross-modal tasks such as
text-to-image generation, this same mapping from noise to image is learnt
whilst including a conditioning mechanism in the model. One key and thus far
relatively unexplored feature of flow matching is that, unlike Diffusion
models, they are not constrained for the source distribution to be noise.
Hence, in this paper, we propose a paradigm shift, and ask the question of
whether we can instead train flow matching models to learn a direct mapping
from the distribution of one modality to the distribution of another, thus
obviating the need for both the noise distribution and conditioning mechanism.
We present a general and simple framework, CrossFlow, for cross-modal flow
matching. We show the importance of applying Variational Encoders to the input
data, and introduce a method to enable Classifier-free guidance. Surprisingly,
for text-to-image, CrossFlow with a vanilla transformer without cross attention
slightly outperforms standard flow matching, and we show that it scales better
with training steps and model size, while also allowing for interesting latent
arithmetic which results in semantically meaningful edits in the output space.
To demonstrate the generalizability of our approach, we also show that
CrossFlow is on par with or outperforms the state-of-the-art for various
cross-modal / intra-modal mapping tasks, viz. image captioning, depth
estimation, and image super-resolution. We hope this paper contributes to
accelerating progress in cross-modal media generation.Summary
AI-Generated Summary