ChatPaper.aiChatPaper

OmniGen2: Exploração para Geração Multimodal Avançada

OmniGen2: Exploration to Advanced Multimodal Generation

June 23, 2025
Autores: Chenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang, Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu
cs.AI

Resumo

Neste trabalho, apresentamos o OmniGen2, um modelo generativo versátil e de código aberto projetado para oferecer uma solução unificada para diversas tarefas de geração, incluindo texto-para-imagem, edição de imagem e geração em contexto. Diferente do OmniGen v1, o OmniGen2 apresenta dois caminhos de decodificação distintos para as modalidades de texto e imagem, utilizando parâmetros não compartilhados e um tokenizador de imagem desacoplado. Esse design permite que o OmniGen2 se baseie em modelos existentes de compreensão multimodal sem a necessidade de readequar entradas de VAE, preservando assim as capacidades originais de geração de texto. Para facilitar o treinamento do OmniGen2, desenvolvemos pipelines abrangentes de construção de dados, abarcando edição de imagem e geração em contexto. Além disso, introduzimos um mecanismo de reflexão específico para tarefas de geração de imagem e criamos um conjunto de dados de reflexão dedicado com base no OmniGen2. Apesar de seu tamanho relativamente modesto de parâmetros, o OmniGen2 alcança resultados competitivos em múltiplos benchmarks de tarefas, incluindo texto-para-imagem e edição de imagem. Para avaliar ainda mais a geração em contexto, também referida como tarefas orientadas por sujeito, introduzimos um novo benchmark chamado OmniContext. O OmniGen2 alcança desempenho de ponta entre os modelos de código aberto em termos de consistência. Disponibilizaremos nossos modelos, código de treinamento, conjuntos de dados e pipeline de construção de dados para apoiar pesquisas futuras nesta área. Página do Projeto: https://vectorspacelab.github.io/OmniGen2; Link do GitHub: https://github.com/VectorSpaceLab/OmniGen2
English
In this work, we introduce OmniGen2, a versatile and open-source generative model designed to provide a unified solution for diverse generation tasks, including text-to-image, image editing, and in-context generation. Unlike OmniGen v1, OmniGen2 features two distinct decoding pathways for text and image modalities, utilizing unshared parameters and a decoupled image tokenizer. This design enables OmniGen2 to build upon existing multimodal understanding models without the need to re-adapt VAE inputs, thereby preserving the original text generation capabilities. To facilitate the training of OmniGen2, we developed comprehensive data construction pipelines, encompassing image editing and in-context generation data. Additionally, we introduce a reflection mechanism tailored for image generation tasks and curate a dedicated reflection dataset based on OmniGen2. Despite its relatively modest parameter size, OmniGen2 achieves competitive results on multiple task benchmarks, including text-to-image and image editing. To further evaluate in-context generation, also referred to as subject-driven tasks, we introduce a new benchmark named OmniContext. OmniGen2 achieves state-of-the-art performance among open-source models in terms of consistency. We will release our models, training code, datasets, and data construction pipeline to support future research in this field. Project Page: https://vectorspacelab.github.io/OmniGen2; GitHub Link: https://github.com/VectorSpaceLab/OmniGen2
PDF734June 24, 2025