OmniGen: Verenigde Beeldgeneratie
OmniGen: Unified Image Generation
September 17, 2024
Auteurs: Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Shuting Wang, Tiejun Huang, Zheng Liu
cs.AI
Samenvatting
In dit werk introduceren we OmniGen, een nieuw diffusiemodel voor geïntegreerde beeldgeneratie. In tegenstelling tot populaire diffusiemodellen (bijv. Stable Diffusion), heeft OmniGen niet langer extra modules nodig zoals ControlNet of IP-Adapter om diverse besturingscondities te verwerken. OmniGen wordt gekenmerkt door de volgende kenmerken: 1) Unificatie: OmniGen toont niet alleen tekst-naar-beeldgeneratiemogelijkheden, maar ondersteunt ook inherent andere downstream taken, zoals beeldbewerking, op onderwerp gedreven generatie, en visueel-voorwaardelijke generatie. Bovendien kan OmniGen klassieke computervisietaken aan door ze om te zetten in beeldgeneratietaken, zoals randdetectie en menselijke houdingsherkenning. 2) Eenvoud: De architectuur van OmniGen is sterk vereenvoudigd, waardoor de noodzaak voor extra tekstencoders wordt geëlimineerd. Bovendien is het gebruiksvriendelijker in vergelijking met bestaande diffusiemodellen, waardoor complexe taken kunnen worden uitgevoerd via instructies zonder de noodzaak voor extra voorbewerkingsstappen (bijv. schatting van menselijke houding), waardoor het werkproces van beeldgeneratie aanzienlijk wordt vereenvoudigd. 3) Kennisoverdracht: Door te leren in een geïntegreerd formaat, kan OmniGen effectief kennis overdragen tussen verschillende taken, ongeziene taken en domeinen beheren, en nieuwe mogelijkheden tonen. We verkennen ook de redeneercapaciteiten van het model en potentiële toepassingen van het ketendenkmechanisme. Dit werk vertegenwoordigt de eerste poging tot een algemeen beeldgeneratiemodel, en er zijn nog verschillende onopgeloste kwesties. We zullen de gerelateerde bronnen open-source maken op https://github.com/VectorSpaceLab/OmniGen om vooruitgang in dit vakgebied te bevorderen.
English
In this work, we introduce OmniGen, a new diffusion model for unified image
generation. Unlike popular diffusion models (e.g., Stable Diffusion), OmniGen
no longer requires additional modules such as ControlNet or IP-Adapter to
process diverse control conditions. OmniGenis characterized by the following
features: 1) Unification: OmniGen not only demonstrates text-to-image
generation capabilities but also inherently supports other downstream tasks,
such as image editing, subject-driven generation, and visual-conditional
generation. Additionally, OmniGen can handle classical computer vision tasks by
transforming them into image generation tasks, such as edge detection and human
pose recognition. 2) Simplicity: The architecture of OmniGen is highly
simplified, eliminating the need for additional text encoders. Moreover, it is
more user-friendly compared to existing diffusion models, enabling complex
tasks to be accomplished through instructions without the need for extra
preprocessing steps (e.g., human pose estimation), thereby significantly
simplifying the workflow of image generation. 3) Knowledge Transfer: Through
learning in a unified format, OmniGen effectively transfers knowledge across
different tasks, manages unseen tasks and domains, and exhibits novel
capabilities. We also explore the model's reasoning capabilities and potential
applications of chain-of-thought mechanism. This work represents the first
attempt at a general-purpose image generation model, and there remain several
unresolved issues. We will open-source the related resources at
https://github.com/VectorSpaceLab/OmniGen to foster advancements in this field.Summary
AI-Generated Summary