ChatPaper.aiChatPaper

OmniGen: Vereinigte Bildgenerierung

OmniGen: Unified Image Generation

September 17, 2024
Autoren: Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Shuting Wang, Tiejun Huang, Zheng Liu
cs.AI

Zusammenfassung

In dieser Arbeit stellen wir OmniGen vor, ein neues Diffusionsmodell für die einheitliche Bildgenerierung. Im Gegensatz zu beliebten Diffusionsmodellen (z. B. Stabile Diffusion) benötigt OmniGen keine zusätzlichen Module wie ControlNet oder IP-Adapter mehr, um verschiedene Steuerungsbedingungen zu verarbeiten. OmniGen zeichnet sich durch folgende Merkmale aus: 1) Vereinheitlichung: OmniGen zeigt nicht nur Fähigkeiten zur Text-zu-Bild-Generierung, sondern unterstützt auch inhärent andere nachgelagerte Aufgaben wie Bildbearbeitung, subjektgesteuerte Generierung und visuell bedingte Generierung. Darüber hinaus kann OmniGen klassische Computer Vision-Aufgaben bewältigen, indem sie in Bildgenerierungsaufgaben umgewandelt werden, wie Kantenentdeckung und menschliche Poseerkennung. 2) Einfachheit: Die Architektur von OmniGen ist stark vereinfacht, was den Bedarf an zusätzlichen Textencodern eliminiert. Darüber hinaus ist sie im Vergleich zu bestehenden Diffusionsmodellen benutzerfreundlicher und ermöglicht komplexe Aufgaben durch Anweisungen ohne zusätzliche Vorverarbeitungsschritte (z. B. Schätzung menschlicher Posen) zu erledigen, wodurch der Arbeitsablauf der Bildgenerierung erheblich vereinfacht wird. 3) Wissenstransfer: Durch das Lernen in einem vereinheitlichten Format überträgt OmniGen Wissen effektiv über verschiedene Aufgaben hinweg, bewältigt unerkannte Aufgaben und Domänen und zeigt neue Fähigkeiten. Wir untersuchen auch die Begründungsfähigkeiten des Modells und potenzielle Anwendungen des Gedankengangsmechanismus. Diese Arbeit stellt den ersten Versuch eines allgemeinen Bildgenerierungsmodells dar, und es gibt noch mehrere ungelöste Probleme. Wir werden die entsprechenden Ressourcen unter https://github.com/VectorSpaceLab/OmniGen als Open Source zur Verfügung stellen, um Fortschritte in diesem Bereich zu fördern.
English
In this work, we introduce OmniGen, a new diffusion model for unified image generation. Unlike popular diffusion models (e.g., Stable Diffusion), OmniGen no longer requires additional modules such as ControlNet or IP-Adapter to process diverse control conditions. OmniGenis characterized by the following features: 1) Unification: OmniGen not only demonstrates text-to-image generation capabilities but also inherently supports other downstream tasks, such as image editing, subject-driven generation, and visual-conditional generation. Additionally, OmniGen can handle classical computer vision tasks by transforming them into image generation tasks, such as edge detection and human pose recognition. 2) Simplicity: The architecture of OmniGen is highly simplified, eliminating the need for additional text encoders. Moreover, it is more user-friendly compared to existing diffusion models, enabling complex tasks to be accomplished through instructions without the need for extra preprocessing steps (e.g., human pose estimation), thereby significantly simplifying the workflow of image generation. 3) Knowledge Transfer: Through learning in a unified format, OmniGen effectively transfers knowledge across different tasks, manages unseen tasks and domains, and exhibits novel capabilities. We also explore the model's reasoning capabilities and potential applications of chain-of-thought mechanism. This work represents the first attempt at a general-purpose image generation model, and there remain several unresolved issues. We will open-source the related resources at https://github.com/VectorSpaceLab/OmniGen to foster advancements in this field.

Summary

AI-Generated Summary

PDF1157November 16, 2024