ChatPaper.aiChatPaper

OmniGen: Объединенная генерация изображений

OmniGen: Unified Image Generation

September 17, 2024
Авторы: Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Shuting Wang, Tiejun Huang, Zheng Liu
cs.AI

Аннотация

В данной работе мы представляем OmniGen, новую модель диффузии для объединенной генерации изображений. В отличие от популярных моделей диффузии (например, Stable Diffusion), OmniGen больше не требует дополнительных модулей, таких как ControlNet или IP-Adapter, для обработки разнообразных условий управления. OmniGen характеризуется следующими особенностями: 1) Объединение: OmniGen не только демонстрирует возможности генерации текста в изображение, но также встроенно поддерживает другие последующие задачи, такие как редактирование изображений, генерация по субъекту и визуально-условная генерация. Кроме того, OmniGen может обрабатывать классические задачи компьютерного зрения, преобразуя их в задачи генерации изображений, такие как обнаружение границ и распознавание поз человека. 2) Простота: Архитектура OmniGen сильно упрощена, не требуя дополнительных текстовых кодировщиков. Более того, она более удобна для пользователя по сравнению с существующими моделями диффузии, позволяя выполнять сложные задачи по инструкциям без необходимости дополнительных предварительных этапов обработки (например, оценки поз человека), тем самым значительно упрощая рабочий процесс генерации изображений. 3) Перенос знаний: Благодаря обучению в объединенном формате, OmniGen эффективно передает знания между различными задачами, управляет невидимыми задачами и областями, и проявляет новые возможности. Мы также исследуем способности модели к рассуждениям и потенциальные применения механизма цепочки мыслей. Эта работа представляет собой первую попытку создания универсальной модели генерации изображений, и остаются несколько нерешенных вопросов. Мы опубликуем связанные ресурсы в открытом доступе на https://github.com/VectorSpaceLab/OmniGen для содействия прогрессу в этой области.
English
In this work, we introduce OmniGen, a new diffusion model for unified image generation. Unlike popular diffusion models (e.g., Stable Diffusion), OmniGen no longer requires additional modules such as ControlNet or IP-Adapter to process diverse control conditions. OmniGenis characterized by the following features: 1) Unification: OmniGen not only demonstrates text-to-image generation capabilities but also inherently supports other downstream tasks, such as image editing, subject-driven generation, and visual-conditional generation. Additionally, OmniGen can handle classical computer vision tasks by transforming them into image generation tasks, such as edge detection and human pose recognition. 2) Simplicity: The architecture of OmniGen is highly simplified, eliminating the need for additional text encoders. Moreover, it is more user-friendly compared to existing diffusion models, enabling complex tasks to be accomplished through instructions without the need for extra preprocessing steps (e.g., human pose estimation), thereby significantly simplifying the workflow of image generation. 3) Knowledge Transfer: Through learning in a unified format, OmniGen effectively transfers knowledge across different tasks, manages unseen tasks and domains, and exhibits novel capabilities. We also explore the model's reasoning capabilities and potential applications of chain-of-thought mechanism. This work represents the first attempt at a general-purpose image generation model, and there remain several unresolved issues. We will open-source the related resources at https://github.com/VectorSpaceLab/OmniGen to foster advancements in this field.

Summary

AI-Generated Summary

PDF1157November 16, 2024