OmniGen2: Esplorazione verso la Generazione Multimodale Avanzata

Abstract

In questo lavoro, presentiamo OmniGen2, un modello generativo versatile e open-source progettato per offrire una soluzione unificata per diverse attività di generazione, tra cui testo-immagine, editing di immagini e generazione in contesto. A differenza di OmniGen v1, OmniGen2 presenta due percorsi di decodifica distinti per le modalità di testo e immagine, utilizzando parametri non condivisi e un tokenizer di immagini disaccoppiato. Questo design consente a OmniGen2 di costruire su modelli esistenti di comprensione multimodale senza la necessità di riadattare gli input VAE, preservando così le capacità originali di generazione del testo. Per facilitare l'addestramento di OmniGen2, abbiamo sviluppato pipeline complete di costruzione dei dati, comprendenti dati di editing di immagini e generazione in contesto. Inoltre, introduciamo un meccanismo di riflessione specifico per le attività di generazione di immagini e curiamo un dataset dedicato di riflessione basato su OmniGen2. Nonostante le dimensioni relativamente modeste dei parametri, OmniGen2 ottiene risultati competitivi su più benchmark di attività, tra cui testo-immagine e editing di immagini. Per valutare ulteriormente la generazione in contesto, anche definita come attività guidate dal soggetto, introduciamo un nuovo benchmark denominato OmniContext. OmniGen2 raggiunge prestazioni all'avanguardia tra i modelli open-source in termini di coerenza. Rilasceremo i nostri modelli, il codice di addestramento, i dataset e la pipeline di costruzione dei dati per supportare future ricerche in questo campo. Pagina del progetto: https://vectorspacelab.github.io/OmniGen2; Link GitHub: https://github.com/VectorSpaceLab/OmniGen2

English

In this work, we introduce OmniGen2, a versatile and open-source generative model designed to provide a unified solution for diverse generation tasks, including text-to-image, image editing, and in-context generation. Unlike OmniGen v1, OmniGen2 features two distinct decoding pathways for text and image modalities, utilizing unshared parameters and a decoupled image tokenizer. This design enables OmniGen2 to build upon existing multimodal understanding models without the need to re-adapt VAE inputs, thereby preserving the original text generation capabilities. To facilitate the training of OmniGen2, we developed comprehensive data construction pipelines, encompassing image editing and in-context generation data. Additionally, we introduce a reflection mechanism tailored for image generation tasks and curate a dedicated reflection dataset based on OmniGen2. Despite its relatively modest parameter size, OmniGen2 achieves competitive results on multiple task benchmarks, including text-to-image and image editing. To further evaluate in-context generation, also referred to as subject-driven tasks, we introduce a new benchmark named OmniContext. OmniGen2 achieves state-of-the-art performance among open-source models in terms of consistency. We will release our models, training code, datasets, and data construction pipeline to support future research in this field. Project Page: https://vectorspacelab.github.io/OmniGen2; GitHub Link: https://github.com/VectorSpaceLab/OmniGen2

OmniGen2: Esplorazione verso la Generazione Multimodale Avanzata

OmniGen2: Exploration to Advanced Multimodal Generation

Abstract

Support