OmniGen: Vereinigte BildgenerierungOmniGen: Unified Image Generation
In dieser Arbeit stellen wir OmniGen vor, ein neues Diffusionsmodell für die einheitliche Bildgenerierung. Im Gegensatz zu beliebten Diffusionsmodellen (z. B. Stabile Diffusion) benötigt OmniGen keine zusätzlichen Module wie ControlNet oder IP-Adapter mehr, um verschiedene Steuerungsbedingungen zu verarbeiten. OmniGen zeichnet sich durch folgende Merkmale aus: 1) Vereinheitlichung: OmniGen zeigt nicht nur Fähigkeiten zur Text-zu-Bild-Generierung, sondern unterstützt auch inhärent andere nachgelagerte Aufgaben wie Bildbearbeitung, subjektgesteuerte Generierung und visuell bedingte Generierung. Darüber hinaus kann OmniGen klassische Computer Vision-Aufgaben bewältigen, indem sie in Bildgenerierungsaufgaben umgewandelt werden, wie Kantenentdeckung und menschliche Poseerkennung. 2) Einfachheit: Die Architektur von OmniGen ist stark vereinfacht, was den Bedarf an zusätzlichen Textencodern eliminiert. Darüber hinaus ist sie im Vergleich zu bestehenden Diffusionsmodellen benutzerfreundlicher und ermöglicht komplexe Aufgaben durch Anweisungen ohne zusätzliche Vorverarbeitungsschritte (z. B. Schätzung menschlicher Posen) zu erledigen, wodurch der Arbeitsablauf der Bildgenerierung erheblich vereinfacht wird. 3) Wissenstransfer: Durch das Lernen in einem vereinheitlichten Format überträgt OmniGen Wissen effektiv über verschiedene Aufgaben hinweg, bewältigt unerkannte Aufgaben und Domänen und zeigt neue Fähigkeiten. Wir untersuchen auch die Begründungsfähigkeiten des Modells und potenzielle Anwendungen des Gedankengangsmechanismus. Diese Arbeit stellt den ersten Versuch eines allgemeinen Bildgenerierungsmodells dar, und es gibt noch mehrere ungelöste Probleme. Wir werden die entsprechenden Ressourcen unter https://github.com/VectorSpaceLab/OmniGen als Open Source zur Verfügung stellen, um Fortschritte in diesem Bereich zu fördern.