OmniGen2: Exploración hacia la Generación Multimodal Avanzada
OmniGen2: Exploration to Advanced Multimodal Generation
June 23, 2025
Autores: Chenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang, Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu
cs.AI
Resumen
En este trabajo presentamos OmniGen2, un modelo generativo versátil y de código abierto diseñado para ofrecer una solución unificada para diversas tareas de generación, incluyendo texto-a-imagen, edición de imágenes y generación en contexto. A diferencia de OmniGen v1, OmniGen2 cuenta con dos rutas de decodificación distintas para las modalidades de texto e imagen, utilizando parámetros no compartidos y un tokenizador de imágenes desacoplado. Este diseño permite a OmniGen2 basarse en modelos existentes de comprensión multimodal sin necesidad de readaptar las entradas del VAE, preservando así las capacidades originales de generación de texto. Para facilitar el entrenamiento de OmniGen2, desarrollamos pipelines integrales de construcción de datos, abarcando datos de edición de imágenes y generación en contexto. Además, introducimos un mecanismo de reflexión específico para tareas de generación de imágenes y creamos un conjunto de datos de reflexión dedicado basado en OmniGen2. A pesar de su tamaño de parámetros relativamente modesto, OmniGen2 logra resultados competitivos en múltiples benchmarks de tareas, incluyendo texto-a-imagen y edición de imágenes. Para evaluar aún más la generación en contexto, también conocida como tareas impulsadas por sujetos, introducimos un nuevo benchmark llamado OmniContext. OmniGen2 alcanza un rendimiento de vanguardia entre los modelos de código abierto en términos de consistencia. Publicaremos nuestros modelos, código de entrenamiento, conjuntos de datos y pipeline de construcción de datos para apoyar futuras investigaciones en este campo. Página del proyecto: https://vectorspacelab.github.io/OmniGen2; Enlace de GitHub: https://github.com/VectorSpaceLab/OmniGen2
English
In this work, we introduce OmniGen2, a versatile and open-source generative
model designed to provide a unified solution for diverse generation tasks,
including text-to-image, image editing, and in-context generation. Unlike
OmniGen v1, OmniGen2 features two distinct decoding pathways for text and image
modalities, utilizing unshared parameters and a decoupled image tokenizer. This
design enables OmniGen2 to build upon existing multimodal understanding models
without the need to re-adapt VAE inputs, thereby preserving the original text
generation capabilities. To facilitate the training of OmniGen2, we developed
comprehensive data construction pipelines, encompassing image editing and
in-context generation data. Additionally, we introduce a reflection mechanism
tailored for image generation tasks and curate a dedicated reflection dataset
based on OmniGen2. Despite its relatively modest parameter size, OmniGen2
achieves competitive results on multiple task benchmarks, including
text-to-image and image editing. To further evaluate in-context generation,
also referred to as subject-driven tasks, we introduce a new benchmark named
OmniContext. OmniGen2 achieves state-of-the-art performance among open-source
models in terms of consistency. We will release our models, training code,
datasets, and data construction pipeline to support future research in this
field. Project Page: https://vectorspacelab.github.io/OmniGen2; GitHub Link:
https://github.com/VectorSpaceLab/OmniGen2