ChatPaper.aiChatPaper

OmniGen: Geração Unificada de Imagens

OmniGen: Unified Image Generation

September 17, 2024
Autores: Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Shuting Wang, Tiejun Huang, Zheng Liu
cs.AI

Resumo

Neste trabalho, apresentamos o OmniGen, um novo modelo de difusão para geração unificada de imagens. Ao contrário de modelos de difusão populares (por exemplo, Difusão Estável), o OmniGen não requer mais módulos adicionais como ControlNet ou Adaptador IP para processar diversas condições de controle. O OmniGen é caracterizado pelas seguintes características: 1) Unificação: O OmniGen não apenas demonstra capacidades de geração de texto para imagem, mas também suporta inerentemente outras tarefas subsequentes, como edição de imagem, geração orientada por assunto e geração condicional visual. Além disso, o OmniGen pode lidar com tarefas clássicas de visão computacional ao transformá-las em tarefas de geração de imagem, como detecção de bordas e reconhecimento de pose humana. 2) Simplicidade: A arquitetura do OmniGen é altamente simplificada, eliminando a necessidade de codificadores de texto adicionais. Além disso, é mais amigável ao usuário em comparação com os modelos de difusão existentes, permitindo que tarefas complexas sejam realizadas por meio de instruções sem a necessidade de etapas de pré-processamento adicionais (por exemplo, estimativa de pose humana), simplificando significativamente o fluxo de trabalho de geração de imagem. 3) Transferência de Conhecimento: Através da aprendizagem em um formato unificado, o OmniGen transfere efetivamente conhecimento entre diferentes tarefas, gerencia tarefas e domínios não vistos e exibe capacidades inovadoras. Também exploramos as capacidades de raciocínio do modelo e aplicações potenciais do mecanismo de encadeamento de pensamento. Este trabalho representa a primeira tentativa de um modelo de geração de imagens de propósito geral, e ainda existem várias questões não resolvidas. Disponibilizaremos os recursos relacionados em código aberto em https://github.com/VectorSpaceLab/OmniGen para promover avanços neste campo.
English
In this work, we introduce OmniGen, a new diffusion model for unified image generation. Unlike popular diffusion models (e.g., Stable Diffusion), OmniGen no longer requires additional modules such as ControlNet or IP-Adapter to process diverse control conditions. OmniGenis characterized by the following features: 1) Unification: OmniGen not only demonstrates text-to-image generation capabilities but also inherently supports other downstream tasks, such as image editing, subject-driven generation, and visual-conditional generation. Additionally, OmniGen can handle classical computer vision tasks by transforming them into image generation tasks, such as edge detection and human pose recognition. 2) Simplicity: The architecture of OmniGen is highly simplified, eliminating the need for additional text encoders. Moreover, it is more user-friendly compared to existing diffusion models, enabling complex tasks to be accomplished through instructions without the need for extra preprocessing steps (e.g., human pose estimation), thereby significantly simplifying the workflow of image generation. 3) Knowledge Transfer: Through learning in a unified format, OmniGen effectively transfers knowledge across different tasks, manages unseen tasks and domains, and exhibits novel capabilities. We also explore the model's reasoning capabilities and potential applications of chain-of-thought mechanism. This work represents the first attempt at a general-purpose image generation model, and there remain several unresolved issues. We will open-source the related resources at https://github.com/VectorSpaceLab/OmniGen to foster advancements in this field.

Summary

AI-Generated Summary

PDF1157November 16, 2024