OmniGen : Génération d'Images UnifiéeOmniGen: Unified Image Generation
Dans ce travail, nous présentons OmniGen, un nouveau modèle de diffusion pour la génération d'images unifiée. Contrairement aux modèles de diffusion populaires (par exemple, Diffusion Stable), OmniGen ne nécessite plus de modules supplémentaires tels que ControlNet ou IP-Adapter pour traiter des conditions de contrôle diverses. OmniGen se caractérise par les caractéristiques suivantes : 1) Unification : OmniGen démontre non seulement des capacités de génération de texte vers image, mais prend également en charge de manière inhérente d'autres tâches en aval, telles que l'édition d'images, la génération basée sur le sujet et la génération conditionnelle visuelle. De plus, OmniGen peut gérer des tâches classiques de vision par ordinateur en les transformant en tâches de génération d'images, telles que la détection de contours et la reconnaissance de la pose humaine. 2) Simplicité : L'architecture d'OmniGen est hautement simplifiée, éliminant le besoin de codeurs de texte supplémentaires. De plus, il est plus convivial que les modèles de diffusion existants, permettant l'accomplissement de tâches complexes grâce à des instructions sans nécessiter d'étapes de prétraitement supplémentaires (par exemple, estimation de la pose humaine), simplifiant ainsi considérablement le flux de travail de génération d'images. 3) Transfert de Connaissances : Grâce à l'apprentissage dans un format unifié, OmniGen transfère efficacement les connaissances entre différentes tâches, gère des tâches et domaines non vus, et présente des capacités nouvelles. Nous explorons également les capacités de raisonnement du modèle et les applications potentielles du mécanisme de chaîne de pensée. Ce travail représente la première tentative d'un modèle de génération d'images polyvalent, et plusieurs problèmes restent non résolus. Nous mettrons à disposition les ressources associées en open source sur https://github.com/VectorSpaceLab/OmniGen pour favoriser les avancées dans ce domaine.