OmniGen2 : Exploration vers la génération multimodale avancée
OmniGen2: Exploration to Advanced Multimodal Generation
June 23, 2025
Auteurs: Chenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang, Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu
cs.AI
Résumé
Dans ce travail, nous présentons OmniGen2, un modèle génératif polyvalent et open-source conçu pour offrir une solution unifiée à diverses tâches de génération, incluant la génération texte-à-image, l'édition d'images et la génération en contexte. Contrairement à OmniGen v1, OmniGen2 intègre deux voies de décodage distinctes pour les modalités texte et image, utilisant des paramètres non partagés et un tokenizer d'images découplé. Cette conception permet à OmniGen2 de s'appuyer sur des modèles de compréhension multimodale existants sans nécessiter de réadapter les entrées VAE, préservant ainsi les capacités originales de génération de texte. Pour faciliter l'entraînement d'OmniGen2, nous avons développé des pipelines complets de construction de données, englobant l'édition d'images et la génération en contexte. De plus, nous introduisons un mécanisme de réflexion spécifiquement adapté aux tâches de génération d'images et constituons un ensemble de données de réflexion dédié basé sur OmniGen2. Malgré sa taille de paramètres relativement modeste, OmniGen2 obtient des résultats compétitifs sur plusieurs benchmarks de tâches, incluant la génération texte-à-image et l'édition d'images. Pour évaluer plus en détail la génération en contexte, également appelée tâches pilotées par sujet, nous introduisons un nouveau benchmark nommé OmniContext. OmniGen2 atteint des performances de pointe parmi les modèles open-source en termes de cohérence. Nous publierons nos modèles, le code d'entraînement, les ensembles de données et le pipeline de construction de données pour soutenir les recherches futures dans ce domaine. Page du projet : https://vectorspacelab.github.io/OmniGen2 ; Lien GitHub : https://github.com/VectorSpaceLab/OmniGen2
English
In this work, we introduce OmniGen2, a versatile and open-source generative
model designed to provide a unified solution for diverse generation tasks,
including text-to-image, image editing, and in-context generation. Unlike
OmniGen v1, OmniGen2 features two distinct decoding pathways for text and image
modalities, utilizing unshared parameters and a decoupled image tokenizer. This
design enables OmniGen2 to build upon existing multimodal understanding models
without the need to re-adapt VAE inputs, thereby preserving the original text
generation capabilities. To facilitate the training of OmniGen2, we developed
comprehensive data construction pipelines, encompassing image editing and
in-context generation data. Additionally, we introduce a reflection mechanism
tailored for image generation tasks and curate a dedicated reflection dataset
based on OmniGen2. Despite its relatively modest parameter size, OmniGen2
achieves competitive results on multiple task benchmarks, including
text-to-image and image editing. To further evaluate in-context generation,
also referred to as subject-driven tasks, we introduce a new benchmark named
OmniContext. OmniGen2 achieves state-of-the-art performance among open-source
models in terms of consistency. We will release our models, training code,
datasets, and data construction pipeline to support future research in this
field. Project Page: https://vectorspacelab.github.io/OmniGen2; GitHub Link:
https://github.com/VectorSpaceLab/OmniGen2