OmniGen2: Exploración hacia la Generación Multimodal Avanzada

Resumen

En este trabajo presentamos OmniGen2, un modelo generativo versátil y de código abierto diseñado para ofrecer una solución unificada para diversas tareas de generación, incluyendo texto-a-imagen, edición de imágenes y generación en contexto. A diferencia de OmniGen v1, OmniGen2 cuenta con dos rutas de decodificación distintas para las modalidades de texto e imagen, utilizando parámetros no compartidos y un tokenizador de imágenes desacoplado. Este diseño permite a OmniGen2 basarse en modelos existentes de comprensión multimodal sin necesidad de readaptar las entradas del VAE, preservando así las capacidades originales de generación de texto. Para facilitar el entrenamiento de OmniGen2, desarrollamos pipelines integrales de construcción de datos, abarcando datos de edición de imágenes y generación en contexto. Además, introducimos un mecanismo de reflexión específico para tareas de generación de imágenes y creamos un conjunto de datos de reflexión dedicado basado en OmniGen2. A pesar de su tamaño de parámetros relativamente modesto, OmniGen2 logra resultados competitivos en múltiples benchmarks de tareas, incluyendo texto-a-imagen y edición de imágenes. Para evaluar aún más la generación en contexto, también conocida como tareas impulsadas por sujetos, introducimos un nuevo benchmark llamado OmniContext. OmniGen2 alcanza un rendimiento de vanguardia entre los modelos de código abierto en términos de consistencia. Publicaremos nuestros modelos, código de entrenamiento, conjuntos de datos y pipeline de construcción de datos para apoyar futuras investigaciones en este campo. Página del proyecto: https://vectorspacelab.github.io/OmniGen2; Enlace de GitHub: https://github.com/VectorSpaceLab/OmniGen2

English

In this work, we introduce OmniGen2, a versatile and open-source generative model designed to provide a unified solution for diverse generation tasks, including text-to-image, image editing, and in-context generation. Unlike OmniGen v1, OmniGen2 features two distinct decoding pathways for text and image modalities, utilizing unshared parameters and a decoupled image tokenizer. This design enables OmniGen2 to build upon existing multimodal understanding models without the need to re-adapt VAE inputs, thereby preserving the original text generation capabilities. To facilitate the training of OmniGen2, we developed comprehensive data construction pipelines, encompassing image editing and in-context generation data. Additionally, we introduce a reflection mechanism tailored for image generation tasks and curate a dedicated reflection dataset based on OmniGen2. Despite its relatively modest parameter size, OmniGen2 achieves competitive results on multiple task benchmarks, including text-to-image and image editing. To further evaluate in-context generation, also referred to as subject-driven tasks, we introduce a new benchmark named OmniContext. OmniGen2 achieves state-of-the-art performance among open-source models in terms of consistency. We will release our models, training code, datasets, and data construction pipeline to support future research in this field. Project Page: https://vectorspacelab.github.io/OmniGen2; GitHub Link: https://github.com/VectorSpaceLab/OmniGen2

OmniGen2: Exploración hacia la Generación Multimodal Avanzada

OmniGen2: Exploration to Advanced Multimodal Generation

Resumen

Support