DreamOmni2: Edição e Geração Multimodal Baseada em Instruções

Resumo

Os recentes avanços na edição de imagens baseada em instruções e na geração orientada por objetos têm atraído atenção significativa, mas ambas as tarefas ainda enfrentam limitações em atender às necessidades práticas dos usuários. A edição baseada em instruções depende exclusivamente de comandos de linguagem, que frequentemente falham em capturar detalhes específicos de edição, tornando necessárias imagens de referência. Enquanto isso, a geração orientada por objetos limita-se a combinar objetos ou pessoas concretas, ignorando conceitos mais amplos e abstratos. Para enfrentar esses desafios, propomos duas novas tarefas: edição e geração multimodal baseada em instruções. Essas tarefas suportam instruções tanto de texto quanto de imagem e ampliam o escopo para incluir conceitos concretos e abstratos, aumentando significativamente suas aplicações práticas. Apresentamos o DreamOmni2, que aborda dois desafios principais: criação de dados e design de estrutura do modelo. Nosso pipeline de síntese de dados consiste em três etapas: (1) usar um método de mistura de características para criar dados de extração para conceitos abstratos e concretos, (2) gerar dados de treinamento para edição multimodal baseada em instruções usando modelos de edição e extração, e (3) aplicar ainda mais o modelo de extração para criar dados de treinamento para edição multimodal baseada em instruções. Para a estrutura, a fim de lidar com entradas de múltiplas imagens, propomos um esquema de codificação de índice e deslocamento de codificação de posição, que ajuda o modelo a distinguir as imagens e evitar confusão de pixels. Além disso, introduzimos o treinamento conjunto com o VLM e nosso modelo de geração/edição para processar melhor instruções complexas. Adicionalmente, propomos benchmarks abrangentes para essas duas novas tarefas para impulsionar seu desenvolvimento. Experimentos mostram que o DreamOmni2 alcançou resultados impressionantes. Modelos e códigos serão disponibilizados.

English

Recent advancements in instruction-based image editing and subject-driven generation have garnered significant attention, yet both tasks still face limitations in meeting practical user needs. Instruction-based editing relies solely on language instructions, which often fail to capture specific editing details, making reference images necessary. Meanwhile, subject-driven generation is limited to combining concrete objects or people, overlooking broader, abstract concepts. To address these challenges, we propose two novel tasks: multimodal instruction-based editing and generation. These tasks support both text and image instructions and extend the scope to include both concrete and abstract concepts, greatly enhancing their practical applications. We introduce DreamOmni2, tackling two primary challenges: data creation and model framework design. Our data synthesis pipeline consists of three steps: (1) using a feature mixing method to create extraction data for both abstract and concrete concepts, (2) generating multimodal instruction-based editing training data using the editing and extraction models, and (3) further applying the extraction model to create training data for multimodal instruction-based editing. For the framework, to handle multi-image input, we propose an index encoding and position encoding shift scheme, which helps the model distinguish images and avoid pixel confusion. Additionally, we introduce joint training with the VLM and our generation/editing model to better process complex instructions. In addition, we have proposed comprehensive benchmarks for these two new tasks to drive their development. Experiments show that DreamOmni2 has achieved impressive results. Models and codes will be released.

DreamOmni2: Edição e Geração Multimodal Baseada em Instruções

DreamOmni2: Multimodal Instruction-based Editing and Generation

Resumo

Support