OmniGen2: Esplorazione verso la Generazione Multimodale Avanzata
OmniGen2: Exploration to Advanced Multimodal Generation
June 23, 2025
Autori: Chenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang, Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu
cs.AI
Abstract
In questo lavoro, presentiamo OmniGen2, un modello generativo versatile e open-source progettato per offrire una soluzione unificata per diverse attività di generazione, tra cui testo-immagine, editing di immagini e generazione in contesto. A differenza di OmniGen v1, OmniGen2 presenta due percorsi di decodifica distinti per le modalità di testo e immagine, utilizzando parametri non condivisi e un tokenizer di immagini disaccoppiato. Questo design consente a OmniGen2 di costruire su modelli esistenti di comprensione multimodale senza la necessità di riadattare gli input VAE, preservando così le capacità originali di generazione del testo. Per facilitare l'addestramento di OmniGen2, abbiamo sviluppato pipeline complete di costruzione dei dati, comprendenti dati di editing di immagini e generazione in contesto. Inoltre, introduciamo un meccanismo di riflessione specifico per le attività di generazione di immagini e curiamo un dataset dedicato di riflessione basato su OmniGen2. Nonostante le dimensioni relativamente modeste dei parametri, OmniGen2 ottiene risultati competitivi su più benchmark di attività, tra cui testo-immagine e editing di immagini. Per valutare ulteriormente la generazione in contesto, anche definita come attività guidate dal soggetto, introduciamo un nuovo benchmark denominato OmniContext. OmniGen2 raggiunge prestazioni all'avanguardia tra i modelli open-source in termini di coerenza. Rilasceremo i nostri modelli, il codice di addestramento, i dataset e la pipeline di costruzione dei dati per supportare future ricerche in questo campo. Pagina del progetto: https://vectorspacelab.github.io/OmniGen2; Link GitHub: https://github.com/VectorSpaceLab/OmniGen2
English
In this work, we introduce OmniGen2, a versatile and open-source generative
model designed to provide a unified solution for diverse generation tasks,
including text-to-image, image editing, and in-context generation. Unlike
OmniGen v1, OmniGen2 features two distinct decoding pathways for text and image
modalities, utilizing unshared parameters and a decoupled image tokenizer. This
design enables OmniGen2 to build upon existing multimodal understanding models
without the need to re-adapt VAE inputs, thereby preserving the original text
generation capabilities. To facilitate the training of OmniGen2, we developed
comprehensive data construction pipelines, encompassing image editing and
in-context generation data. Additionally, we introduce a reflection mechanism
tailored for image generation tasks and curate a dedicated reflection dataset
based on OmniGen2. Despite its relatively modest parameter size, OmniGen2
achieves competitive results on multiple task benchmarks, including
text-to-image and image editing. To further evaluate in-context generation,
also referred to as subject-driven tasks, we introduce a new benchmark named
OmniContext. OmniGen2 achieves state-of-the-art performance among open-source
models in terms of consistency. We will release our models, training code,
datasets, and data construction pipeline to support future research in this
field. Project Page: https://vectorspacelab.github.io/OmniGen2; GitHub Link:
https://github.com/VectorSpaceLab/OmniGen2