OmniGen: Geração Unificada de ImagensOmniGen: Unified Image Generation
Neste trabalho, apresentamos o OmniGen, um novo modelo de difusão para geração unificada de imagens. Ao contrário de modelos de difusão populares (por exemplo, Difusão Estável), o OmniGen não requer mais módulos adicionais como ControlNet ou Adaptador IP para processar diversas condições de controle. O OmniGen é caracterizado pelas seguintes características: 1) Unificação: O OmniGen não apenas demonstra capacidades de geração de texto para imagem, mas também suporta inerentemente outras tarefas subsequentes, como edição de imagem, geração orientada por assunto e geração condicional visual. Além disso, o OmniGen pode lidar com tarefas clássicas de visão computacional ao transformá-las em tarefas de geração de imagem, como detecção de bordas e reconhecimento de pose humana. 2) Simplicidade: A arquitetura do OmniGen é altamente simplificada, eliminando a necessidade de codificadores de texto adicionais. Além disso, é mais amigável ao usuário em comparação com os modelos de difusão existentes, permitindo que tarefas complexas sejam realizadas por meio de instruções sem a necessidade de etapas de pré-processamento adicionais (por exemplo, estimativa de pose humana), simplificando significativamente o fluxo de trabalho de geração de imagem. 3) Transferência de Conhecimento: Através da aprendizagem em um formato unificado, o OmniGen transfere efetivamente conhecimento entre diferentes tarefas, gerencia tarefas e domínios não vistos e exibe capacidades inovadoras. Também exploramos as capacidades de raciocínio do modelo e aplicações potenciais do mecanismo de encadeamento de pensamento. Este trabalho representa a primeira tentativa de um modelo de geração de imagens de propósito geral, e ainda existem várias questões não resolvidas. Disponibilizaremos os recursos relacionados em código aberto em https://github.com/VectorSpaceLab/OmniGen para promover avanços neste campo.