ChatPaper.aiChatPaper

OmniGen2 : Exploration vers la génération multimodale avancée

OmniGen2: Exploration to Advanced Multimodal Generation

June 23, 2025
Auteurs: Chenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang, Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu
cs.AI

Résumé

Dans ce travail, nous présentons OmniGen2, un modèle génératif polyvalent et open-source conçu pour offrir une solution unifiée à diverses tâches de génération, incluant la génération texte-à-image, l'édition d'images et la génération en contexte. Contrairement à OmniGen v1, OmniGen2 intègre deux voies de décodage distinctes pour les modalités texte et image, utilisant des paramètres non partagés et un tokenizer d'images découplé. Cette conception permet à OmniGen2 de s'appuyer sur des modèles de compréhension multimodale existants sans nécessiter de réadapter les entrées VAE, préservant ainsi les capacités originales de génération de texte. Pour faciliter l'entraînement d'OmniGen2, nous avons développé des pipelines complets de construction de données, englobant l'édition d'images et la génération en contexte. De plus, nous introduisons un mécanisme de réflexion spécifiquement adapté aux tâches de génération d'images et constituons un ensemble de données de réflexion dédié basé sur OmniGen2. Malgré sa taille de paramètres relativement modeste, OmniGen2 obtient des résultats compétitifs sur plusieurs benchmarks de tâches, incluant la génération texte-à-image et l'édition d'images. Pour évaluer plus en détail la génération en contexte, également appelée tâches pilotées par sujet, nous introduisons un nouveau benchmark nommé OmniContext. OmniGen2 atteint des performances de pointe parmi les modèles open-source en termes de cohérence. Nous publierons nos modèles, le code d'entraînement, les ensembles de données et le pipeline de construction de données pour soutenir les recherches futures dans ce domaine. Page du projet : https://vectorspacelab.github.io/OmniGen2 ; Lien GitHub : https://github.com/VectorSpaceLab/OmniGen2
English
In this work, we introduce OmniGen2, a versatile and open-source generative model designed to provide a unified solution for diverse generation tasks, including text-to-image, image editing, and in-context generation. Unlike OmniGen v1, OmniGen2 features two distinct decoding pathways for text and image modalities, utilizing unshared parameters and a decoupled image tokenizer. This design enables OmniGen2 to build upon existing multimodal understanding models without the need to re-adapt VAE inputs, thereby preserving the original text generation capabilities. To facilitate the training of OmniGen2, we developed comprehensive data construction pipelines, encompassing image editing and in-context generation data. Additionally, we introduce a reflection mechanism tailored for image generation tasks and curate a dedicated reflection dataset based on OmniGen2. Despite its relatively modest parameter size, OmniGen2 achieves competitive results on multiple task benchmarks, including text-to-image and image editing. To further evaluate in-context generation, also referred to as subject-driven tasks, we introduce a new benchmark named OmniContext. OmniGen2 achieves state-of-the-art performance among open-source models in terms of consistency. We will release our models, training code, datasets, and data construction pipeline to support future research in this field. Project Page: https://vectorspacelab.github.io/OmniGen2; GitHub Link: https://github.com/VectorSpaceLab/OmniGen2
PDF482June 24, 2025