ChatPaper.aiChatPaper

OmniGen : Génération d'Images Unifiée

OmniGen: Unified Image Generation

September 17, 2024
Auteurs: Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Shuting Wang, Tiejun Huang, Zheng Liu
cs.AI

Résumé

Dans ce travail, nous présentons OmniGen, un nouveau modèle de diffusion pour la génération d'images unifiée. Contrairement aux modèles de diffusion populaires (par exemple, Diffusion Stable), OmniGen ne nécessite plus de modules supplémentaires tels que ControlNet ou IP-Adapter pour traiter des conditions de contrôle diverses. OmniGen se caractérise par les caractéristiques suivantes : 1) Unification : OmniGen démontre non seulement des capacités de génération de texte vers image, mais prend également en charge de manière inhérente d'autres tâches en aval, telles que l'édition d'images, la génération basée sur le sujet et la génération conditionnelle visuelle. De plus, OmniGen peut gérer des tâches classiques de vision par ordinateur en les transformant en tâches de génération d'images, telles que la détection de contours et la reconnaissance de la pose humaine. 2) Simplicité : L'architecture d'OmniGen est hautement simplifiée, éliminant le besoin de codeurs de texte supplémentaires. De plus, il est plus convivial que les modèles de diffusion existants, permettant l'accomplissement de tâches complexes grâce à des instructions sans nécessiter d'étapes de prétraitement supplémentaires (par exemple, estimation de la pose humaine), simplifiant ainsi considérablement le flux de travail de génération d'images. 3) Transfert de Connaissances : Grâce à l'apprentissage dans un format unifié, OmniGen transfère efficacement les connaissances entre différentes tâches, gère des tâches et domaines non vus, et présente des capacités nouvelles. Nous explorons également les capacités de raisonnement du modèle et les applications potentielles du mécanisme de chaîne de pensée. Ce travail représente la première tentative d'un modèle de génération d'images polyvalent, et plusieurs problèmes restent non résolus. Nous mettrons à disposition les ressources associées en open source sur https://github.com/VectorSpaceLab/OmniGen pour favoriser les avancées dans ce domaine.
English
In this work, we introduce OmniGen, a new diffusion model for unified image generation. Unlike popular diffusion models (e.g., Stable Diffusion), OmniGen no longer requires additional modules such as ControlNet or IP-Adapter to process diverse control conditions. OmniGenis characterized by the following features: 1) Unification: OmniGen not only demonstrates text-to-image generation capabilities but also inherently supports other downstream tasks, such as image editing, subject-driven generation, and visual-conditional generation. Additionally, OmniGen can handle classical computer vision tasks by transforming them into image generation tasks, such as edge detection and human pose recognition. 2) Simplicity: The architecture of OmniGen is highly simplified, eliminating the need for additional text encoders. Moreover, it is more user-friendly compared to existing diffusion models, enabling complex tasks to be accomplished through instructions without the need for extra preprocessing steps (e.g., human pose estimation), thereby significantly simplifying the workflow of image generation. 3) Knowledge Transfer: Through learning in a unified format, OmniGen effectively transfers knowledge across different tasks, manages unseen tasks and domains, and exhibits novel capabilities. We also explore the model's reasoning capabilities and potential applications of chain-of-thought mechanism. This work represents the first attempt at a general-purpose image generation model, and there remain several unresolved issues. We will open-source the related resources at https://github.com/VectorSpaceLab/OmniGen to foster advancements in this field.

Summary

AI-Generated Summary

PDF1157November 16, 2024