ChatPaper.aiChatPaper

OmniGen2: Исследование в области продвинутой мультимодальной генерации

OmniGen2: Exploration to Advanced Multimodal Generation

June 23, 2025
Авторы: Chenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang, Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu
cs.AI

Аннотация

В данной работе мы представляем OmniGen2 — универсальную генеративную модель с открытым исходным кодом, предназначенную для решения разнообразных задач генерации, включая преобразование текста в изображение, редактирование изображений и генерацию в контексте. В отличие от OmniGen v1, OmniGen2 оснащена двумя отдельными декодирующими путями для текстовой и визуальной модальностей, использующими независимые параметры и разделенный токенизатор изображений. Такая конструкция позволяет OmniGen2 развивать существующие модели мультимодального понимания без необходимости повторной адаптации входных данных VAE, сохраняя при этом исходные возможности генерации текста. Для облегчения обучения OmniGen2 мы разработали комплексные конвейеры подготовки данных, охватывающие данные для редактирования изображений и генерации в контексте. Кроме того, мы внедрили механизм рефлексии, адаптированный для задач генерации изображений, и создали специализированный набор данных для рефлексии на основе OmniGen2. Несмотря на относительно небольшой размер параметров, OmniGen2 демонстрирует конкурентоспособные результаты на множестве тестовых задач, включая преобразование текста в изображение и редактирование изображений. Для дальнейшей оценки генерации в контексте, также называемой задачами, управляемыми субъектом, мы вводим новый бенчмарк под названием OmniContext. OmniGen2 достигает наилучших результатов среди моделей с открытым исходным кодом с точки зрения согласованности. Мы опубликуем наши модели, обучающий код, наборы данных и конвейер подготовки данных для поддержки будущих исследований в этой области. Страница проекта: https://vectorspacelab.github.io/OmniGen2; Ссылка на GitHub: https://github.com/VectorSpaceLab/OmniGen2.
English
In this work, we introduce OmniGen2, a versatile and open-source generative model designed to provide a unified solution for diverse generation tasks, including text-to-image, image editing, and in-context generation. Unlike OmniGen v1, OmniGen2 features two distinct decoding pathways for text and image modalities, utilizing unshared parameters and a decoupled image tokenizer. This design enables OmniGen2 to build upon existing multimodal understanding models without the need to re-adapt VAE inputs, thereby preserving the original text generation capabilities. To facilitate the training of OmniGen2, we developed comprehensive data construction pipelines, encompassing image editing and in-context generation data. Additionally, we introduce a reflection mechanism tailored for image generation tasks and curate a dedicated reflection dataset based on OmniGen2. Despite its relatively modest parameter size, OmniGen2 achieves competitive results on multiple task benchmarks, including text-to-image and image editing. To further evaluate in-context generation, also referred to as subject-driven tasks, we introduce a new benchmark named OmniContext. OmniGen2 achieves state-of-the-art performance among open-source models in terms of consistency. We will release our models, training code, datasets, and data construction pipeline to support future research in this field. Project Page: https://vectorspacelab.github.io/OmniGen2; GitHub Link: https://github.com/VectorSpaceLab/OmniGen2
PDF482June 24, 2025