OmniGen: Объединенная генерация изображенийOmniGen: Unified Image Generation
В данной работе мы представляем OmniGen, новую модель диффузии для объединенной генерации изображений. В отличие от популярных моделей диффузии (например, Stable Diffusion), OmniGen больше не требует дополнительных модулей, таких как ControlNet или IP-Adapter, для обработки разнообразных условий управления. OmniGen характеризуется следующими особенностями: 1) Объединение: OmniGen не только демонстрирует возможности генерации текста в изображение, но также встроенно поддерживает другие последующие задачи, такие как редактирование изображений, генерация по субъекту и визуально-условная генерация. Кроме того, OmniGen может обрабатывать классические задачи компьютерного зрения, преобразуя их в задачи генерации изображений, такие как обнаружение границ и распознавание поз человека. 2) Простота: Архитектура OmniGen сильно упрощена, не требуя дополнительных текстовых кодировщиков. Более того, она более удобна для пользователя по сравнению с существующими моделями диффузии, позволяя выполнять сложные задачи по инструкциям без необходимости дополнительных предварительных этапов обработки (например, оценки поз человека), тем самым значительно упрощая рабочий процесс генерации изображений. 3) Перенос знаний: Благодаря обучению в объединенном формате, OmniGen эффективно передает знания между различными задачами, управляет невидимыми задачами и областями, и проявляет новые возможности. Мы также исследуем способности модели к рассуждениям и потенциальные применения механизма цепочки мыслей. Эта работа представляет собой первую попытку создания универсальной модели генерации изображений, и остаются несколько нерешенных вопросов. Мы опубликуем связанные ресурсы в открытом доступе на https://github.com/VectorSpaceLab/OmniGen для содействия прогрессу в этой области.