OmniFlow: Генерация от любого к любому с много-модальными прямыми потоками
OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows
December 2, 2024
Авторы: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Zichun Liao, Yusuke Kato, Kazuki Kozuka, Aditya Grover
cs.AI
Аннотация
Мы представляем OmniFlow, новую генеративную модель, разработанную для задач генерации любого к любому, таких как текст в изображение, текст в аудио и аудио в изображение. OmniFlow развивает рамки исправленного потока (RF), используемые в моделях текст в изображение, для работы с совместным распределением нескольких модальностей. Он превосходит предыдущие модели любого к любому на широком спектре задач, таких как синтез текста в изображение и текста в аудио. Наша работа предлагает три ключевых вклада: Во-первых, мы расширяем RF до мультимодальной среды и представляем новый механизм управления, позволяющий пользователям гибко контролировать соответствие между различными модальностями в сгенерированных выходных данных. Во-вторых, мы предлагаем новую архитектуру, которая расширяет архитектуру текст в изображение MMDiT Stable Diffusion 3 и позволяет генерацию аудио и текста. Расширенные модули могут быть эффективно предварительно обучены индивидуально и объединены с обычным текстом в изображение MMDiT для настройки. Наконец, мы проводим всестороннее исследование дизайнерских решений для преобразователей исправленного потока для генерации аудио и текста в масштабе, предоставляя ценные идеи для оптимизации производительности в различных модальностях. Код будет доступен по адресу https://github.com/jacklishufan/OmniFlows.
English
We introduce OmniFlow, a novel generative model designed for any-to-any
generation tasks such as text-to-image, text-to-audio, and audio-to-image
synthesis. OmniFlow advances the rectified flow (RF) framework used in
text-to-image models to handle the joint distribution of multiple modalities.
It outperforms previous any-to-any models on a wide range of tasks, such as
text-to-image and text-to-audio synthesis. Our work offers three key
contributions: First, we extend RF to a multi-modal setting and introduce a
novel guidance mechanism, enabling users to flexibly control the alignment
between different modalities in the generated outputs. Second, we propose a
novel architecture that extends the text-to-image MMDiT architecture of Stable
Diffusion 3 and enables audio and text generation. The extended modules can be
efficiently pretrained individually and merged with the vanilla text-to-image
MMDiT for fine-tuning. Lastly, we conduct a comprehensive study on the design
choices of rectified flow transformers for large-scale audio and text
generation, providing valuable insights into optimizing performance across
diverse modalities. The Code will be available at
https://github.com/jacklishufan/OmniFlows.Summary
AI-Generated Summary