Переход от слов к пикселям: Фреймворк для эволюции кросс-модальности
Flowing from Words to Pixels: A Framework for Cross-Modality Evolution
December 19, 2024
Авторы: Qihao Liu, Xi Yin, Alan Yuille, Andrew Brown, Mannat Singh
cs.AI
Аннотация
Модели диффузии и их обобщение, сопоставление потоков, оказали заметное влияние на область генерации медиа. Здесь традиционным подходом является изучение сложного отображения от простого исходного распределения гауссовского шума к целевому распределению медиа. Для кросс-модальных задач, таких как генерация текста в изображение, это же отображение от шума к изображению изучается с учетом механизма условий в модели. Одной из ключевых и до сих пор относительно неисследованных особенностей сопоставления потоков является то, что, в отличие от моделей диффузии, они не ограничены тем, чтобы исходное распределение было шумом. Поэтому в данной статье мы предлагаем парадигмальный сдвиг и задаем вопрос о том, можно ли вместо этого обучить модели сопоставления потоков изучать прямое отображение от распределения одной модальности к распределению другой, тем самым избежав необходимости как в распределении шума, так и в механизме условий. Мы представляем общую и простую структуру, CrossFlow, для кросс-модального сопоставления потоков. Мы показываем важность применения вариационных кодировщиков к входным данным и представляем метод, позволяющий обеспечить руководство без классификатора. Удивительным образом для текста в изображение CrossFlow с обычным трансформером без кросс-внимания немного превосходит стандартное сопоставление потоков, и мы показываем, что он лучше масштабируется с увеличением количества шагов обучения и размером модели, позволяя также интересные латентные арифметические операции, приводящие к семантически значимым изменениям в пространстве вывода. Для демонстрации обобщаемости нашего подхода мы также показываем, что CrossFlow на уровне или превосходит современные методы для различных кросс-модальных / внутримодальных задач сопоставления, таких как описание изображения, оценка глубины и суперразрешение изображения. Мы надеемся, что данная статья способствует ускорению прогресса в области кросс-модальной генерации медиа.
English
Diffusion models, and their generalization, flow matching, have had a
remarkable impact on the field of media generation. Here, the conventional
approach is to learn the complex mapping from a simple source distribution of
Gaussian noise to the target media distribution. For cross-modal tasks such as
text-to-image generation, this same mapping from noise to image is learnt
whilst including a conditioning mechanism in the model. One key and thus far
relatively unexplored feature of flow matching is that, unlike Diffusion
models, they are not constrained for the source distribution to be noise.
Hence, in this paper, we propose a paradigm shift, and ask the question of
whether we can instead train flow matching models to learn a direct mapping
from the distribution of one modality to the distribution of another, thus
obviating the need for both the noise distribution and conditioning mechanism.
We present a general and simple framework, CrossFlow, for cross-modal flow
matching. We show the importance of applying Variational Encoders to the input
data, and introduce a method to enable Classifier-free guidance. Surprisingly,
for text-to-image, CrossFlow with a vanilla transformer without cross attention
slightly outperforms standard flow matching, and we show that it scales better
with training steps and model size, while also allowing for interesting latent
arithmetic which results in semantically meaningful edits in the output space.
To demonstrate the generalizability of our approach, we also show that
CrossFlow is on par with or outperforms the state-of-the-art for various
cross-modal / intra-modal mapping tasks, viz. image captioning, depth
estimation, and image super-resolution. We hope this paper contributes to
accelerating progress in cross-modal media generation.Summary
AI-Generated Summary