OmniGen: Generazione Unificata di Immagini
OmniGen: Unified Image Generation
September 17, 2024
Autori: Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Shuting Wang, Tiejun Huang, Zheng Liu
cs.AI
Abstract
In questo lavoro, presentiamo OmniGen, un nuovo modello di diffusione per la generazione unificata di immagini. A differenza dei popolari modelli di diffusione (ad esempio, Diffusione Stabile), OmniGen non richiede più moduli aggiuntivi come ControlNet o IP-Adapter per elaborare diverse condizioni di controllo. OmniGen è caratterizzato dalle seguenti caratteristiche: 1) Unificazione: OmniGen non solo dimostra capacità di generazione testo-immagine, ma supporta intrinsecamente anche altre attività successive, come modifica delle immagini, generazione guidata dal soggetto e generazione condizionata visivamente. Inoltre, OmniGen può gestire compiti classici di visione artificiale trasformandoli in compiti di generazione di immagini, come rilevamento dei contorni e riconoscimento della postura umana. 2) Semplicità: L'architettura di OmniGen è altamente semplificata, eliminando la necessità di codificatori di testo aggiuntivi. Inoltre, è più user-friendly rispetto ai modelli di diffusione esistenti, consentendo di completare compiti complessi attraverso istruzioni senza la necessità di passaggi di pre-elaborazione aggiuntivi (ad esempio, stima della postura umana), semplificando significativamente il flusso di lavoro della generazione di immagini. 3) Trasferimento di Conoscenza: Attraverso l'apprendimento in un formato unificato, OmniGen trasferisce efficacemente la conoscenza tra diversi compiti, gestisce compiti e domini non visti ed esibisce capacità innovative. Esploriamo anche le capacità di ragionamento del modello e le potenziali applicazioni del meccanismo di concatenazione del pensiero. Questo lavoro rappresenta il primo tentativo di un modello di generazione di immagini ad uso generale e rimangono diverse questioni irrisolte. Metteremo a disposizione le risorse correlate in open source su https://github.com/VectorSpaceLab/OmniGen per favorire i progressi in questo campo.
English
In this work, we introduce OmniGen, a new diffusion model for unified image
generation. Unlike popular diffusion models (e.g., Stable Diffusion), OmniGen
no longer requires additional modules such as ControlNet or IP-Adapter to
process diverse control conditions. OmniGenis characterized by the following
features: 1) Unification: OmniGen not only demonstrates text-to-image
generation capabilities but also inherently supports other downstream tasks,
such as image editing, subject-driven generation, and visual-conditional
generation. Additionally, OmniGen can handle classical computer vision tasks by
transforming them into image generation tasks, such as edge detection and human
pose recognition. 2) Simplicity: The architecture of OmniGen is highly
simplified, eliminating the need for additional text encoders. Moreover, it is
more user-friendly compared to existing diffusion models, enabling complex
tasks to be accomplished through instructions without the need for extra
preprocessing steps (e.g., human pose estimation), thereby significantly
simplifying the workflow of image generation. 3) Knowledge Transfer: Through
learning in a unified format, OmniGen effectively transfers knowledge across
different tasks, manages unseen tasks and domains, and exhibits novel
capabilities. We also explore the model's reasoning capabilities and potential
applications of chain-of-thought mechanism. This work represents the first
attempt at a general-purpose image generation model, and there remain several
unresolved issues. We will open-source the related resources at
https://github.com/VectorSpaceLab/OmniGen to foster advancements in this field.Summary
AI-Generated Summary