OmniGen: Generación Unificada de Imágenes
OmniGen: Unified Image Generation
September 17, 2024
Autores: Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Shuting Wang, Tiejun Huang, Zheng Liu
cs.AI
Resumen
En este trabajo, presentamos OmniGen, un nuevo modelo de difusión para generación unificada de imágenes. A diferencia de los modelos de difusión populares (por ejemplo, Difusión Estable), OmniGen ya no requiere módulos adicionales como ControlNet o Adaptador IP para procesar diversas condiciones de control. OmniGen se caracteriza por las siguientes características: 1) Unificación: OmniGen no solo demuestra capacidades de generación de texto a imagen, sino que también soporta inherentemente otras tareas posteriores, como edición de imágenes, generación impulsada por sujetos y generación condicional visual. Además, OmniGen puede manejar tareas clásicas de visión por computadora al transformarlas en tareas de generación de imágenes, como detección de bordes y reconocimiento de postura humana. 2) Simplicidad: La arquitectura de OmniGen es altamente simplificada, eliminando la necesidad de codificadores de texto adicionales. Además, es más amigable para el usuario en comparación con los modelos de difusión existentes, permitiendo que tareas complejas se realicen a través de instrucciones sin necesidad de pasos de preprocesamiento adicionales (por ejemplo, estimación de postura humana), simplificando significativamente el flujo de trabajo de generación de imágenes. 3) Transferencia de Conocimiento: A través del aprendizaje en un formato unificado, OmniGen transfiere eficazmente conocimiento entre diferentes tareas, gestiona tareas y dominios no vistos, y exhibe capacidades novedosas. También exploramos las capacidades de razonamiento del modelo y las posibles aplicaciones del mecanismo de cadena de pensamiento. Este trabajo representa el primer intento de un modelo de generación de imágenes de propósito general, y aún quedan varios problemas sin resolver. Publicaremos los recursos relacionados en código abierto en https://github.com/VectorSpaceLab/OmniGen para fomentar avances en este campo.
English
In this work, we introduce OmniGen, a new diffusion model for unified image
generation. Unlike popular diffusion models (e.g., Stable Diffusion), OmniGen
no longer requires additional modules such as ControlNet or IP-Adapter to
process diverse control conditions. OmniGenis characterized by the following
features: 1) Unification: OmniGen not only demonstrates text-to-image
generation capabilities but also inherently supports other downstream tasks,
such as image editing, subject-driven generation, and visual-conditional
generation. Additionally, OmniGen can handle classical computer vision tasks by
transforming them into image generation tasks, such as edge detection and human
pose recognition. 2) Simplicity: The architecture of OmniGen is highly
simplified, eliminating the need for additional text encoders. Moreover, it is
more user-friendly compared to existing diffusion models, enabling complex
tasks to be accomplished through instructions without the need for extra
preprocessing steps (e.g., human pose estimation), thereby significantly
simplifying the workflow of image generation. 3) Knowledge Transfer: Through
learning in a unified format, OmniGen effectively transfers knowledge across
different tasks, manages unseen tasks and domains, and exhibits novel
capabilities. We also explore the model's reasoning capabilities and potential
applications of chain-of-thought mechanism. This work represents the first
attempt at a general-purpose image generation model, and there remain several
unresolved issues. We will open-source the related resources at
https://github.com/VectorSpaceLab/OmniGen to foster advancements in this field.Summary
AI-Generated Summary