ChatPaper.aiChatPaper

OmniGen2: Verkenning naar Geavanceerde Multimodale Generatie

OmniGen2: Exploration to Advanced Multimodal Generation

June 23, 2025
Auteurs: Chenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang, Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu
cs.AI

Samenvatting

In dit werk introduceren we OmniGen2, een veelzijdig en open-source generatief model dat is ontworpen om een uniforme oplossing te bieden voor diverse generatietaken, waaronder tekst-naar-beeld, beeldbewerking en in-context generatie. In tegenstelling tot OmniGen v1, beschikt OmniGen2 over twee afzonderlijke decodeerpaden voor tekst- en beeldmodaliteiten, waarbij gebruik wordt gemaakt van niet-gedeelde parameters en een ontkoppelde beeldtokenizer. Dit ontwerp stelt OmniGen2 in staat voort te bouwen op bestaande multimodale begripsmodellen zonder dat VAE-inputs opnieuw moeten worden aangepast, waardoor de oorspronkelijke tekstgeneratiecapaciteiten behouden blijven. Om de training van OmniGen2 te vergemakkelijken, hebben we uitgebreide dataconstructiepijplijnen ontwikkeld, die beeldbewerking en in-context generatiedata omvatten. Daarnaast introduceren we een reflectiemechanisme dat is toegespitst op beeldgeneratietaken en stellen we een speciaal reflectiedataset samen op basis van OmniGen2. Ondanks zijn relatief bescheiden parameteromvang behaalt OmniGen2 competitieve resultaten op meerdere taakbenchmarks, waaronder tekst-naar-beeld en beeldbewerking. Om in-context generatie, ook wel onderwerpgedreven taken genoemd, verder te evalueren, introduceren we een nieuwe benchmark genaamd OmniContext. OmniGen2 behaalt state-of-the-art prestaties onder open-source modellen wat betreft consistentie. We zullen onze modellen, trainingscode, datasets en dataconstructiepijplijn vrijgeven om toekomstig onderzoek op dit gebied te ondersteunen. Projectpagina: https://vectorspacelab.github.io/OmniGen2; GitHub-link: https://github.com/VectorSpaceLab/OmniGen2
English
In this work, we introduce OmniGen2, a versatile and open-source generative model designed to provide a unified solution for diverse generation tasks, including text-to-image, image editing, and in-context generation. Unlike OmniGen v1, OmniGen2 features two distinct decoding pathways for text and image modalities, utilizing unshared parameters and a decoupled image tokenizer. This design enables OmniGen2 to build upon existing multimodal understanding models without the need to re-adapt VAE inputs, thereby preserving the original text generation capabilities. To facilitate the training of OmniGen2, we developed comprehensive data construction pipelines, encompassing image editing and in-context generation data. Additionally, we introduce a reflection mechanism tailored for image generation tasks and curate a dedicated reflection dataset based on OmniGen2. Despite its relatively modest parameter size, OmniGen2 achieves competitive results on multiple task benchmarks, including text-to-image and image editing. To further evaluate in-context generation, also referred to as subject-driven tasks, we introduce a new benchmark named OmniContext. OmniGen2 achieves state-of-the-art performance among open-source models in terms of consistency. We will release our models, training code, datasets, and data construction pipeline to support future research in this field. Project Page: https://vectorspacelab.github.io/OmniGen2; GitHub Link: https://github.com/VectorSpaceLab/OmniGen2
PDF714June 24, 2025