ChatPaper.aiChatPaper

OmniFlow: Generación de cualquier a cualquier con flujos rectificados multimodales.

OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows

December 2, 2024
Autores: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Zichun Liao, Yusuke Kato, Kazuki Kozuka, Aditya Grover
cs.AI

Resumen

Presentamos OmniFlow, un modelo generativo novedoso diseñado para tareas de generación de cualquier-a-cualquier, como texto-a-imagen, texto-a-audio y síntesis de audio-a-imagen. OmniFlow avanza el marco de flujo rectificado (RF) utilizado en modelos de texto-a-imagen para manejar la distribución conjunta de múltiples modalidades. Supera a modelos previos de cualquier-a-cualquier en una amplia gama de tareas, como síntesis de texto-a-imagen y texto-a-audio. Nuestro trabajo ofrece tres contribuciones clave: Primero, extendemos RF a un entorno multi-modal e introducimos un mecanismo de guía novedoso, que permite a los usuarios controlar de forma flexible la alineación entre diferentes modalidades en las salidas generadas. Segundo, proponemos una arquitectura novedosa que extiende la arquitectura MMDiT de texto-a-imagen de Stable Diffusion 3 y permite la generación de audio y texto. Los módulos extendidos pueden ser preentrenados de manera eficiente de forma individual y fusionados con el MMDiT de texto-a-imagen estándar para ajustes finos. Por último, realizamos un estudio exhaustivo sobre las elecciones de diseño de transformadores de flujo rectificado para generación de audio y texto a gran escala, proporcionando ideas valiosas para optimizar el rendimiento en diversas modalidades. El código estará disponible en https://github.com/jacklishufan/OmniFlows.
English
We introduce OmniFlow, a novel generative model designed for any-to-any generation tasks such as text-to-image, text-to-audio, and audio-to-image synthesis. OmniFlow advances the rectified flow (RF) framework used in text-to-image models to handle the joint distribution of multiple modalities. It outperforms previous any-to-any models on a wide range of tasks, such as text-to-image and text-to-audio synthesis. Our work offers three key contributions: First, we extend RF to a multi-modal setting and introduce a novel guidance mechanism, enabling users to flexibly control the alignment between different modalities in the generated outputs. Second, we propose a novel architecture that extends the text-to-image MMDiT architecture of Stable Diffusion 3 and enables audio and text generation. The extended modules can be efficiently pretrained individually and merged with the vanilla text-to-image MMDiT for fine-tuning. Lastly, we conduct a comprehensive study on the design choices of rectified flow transformers for large-scale audio and text generation, providing valuable insights into optimizing performance across diverse modalities. The Code will be available at https://github.com/jacklishufan/OmniFlows.
PDF132December 6, 2024