DreamOmni2: Edição e Geração Multimodal Baseada em Instruções
DreamOmni2: Multimodal Instruction-based Editing and Generation
October 8, 2025
Autores: Bin Xia, Bohao Peng, Yuechen Zhang, Junjia Huang, Jiyang Liu, Jingyao Li, Haoru Tan, Sitong Wu, Chengyao Wang, Yitong Wang, Xinglong Wu, Bei Yu, Jiaya Jia
cs.AI
Resumo
Os recentes avanços na edição de imagens baseada em instruções e na geração orientada por objetos têm atraído atenção significativa, mas ambas as tarefas ainda enfrentam limitações em atender às necessidades práticas dos usuários. A edição baseada em instruções depende exclusivamente de comandos de linguagem, que frequentemente falham em capturar detalhes específicos de edição, tornando necessárias imagens de referência. Enquanto isso, a geração orientada por objetos limita-se a combinar objetos ou pessoas concretas, ignorando conceitos mais amplos e abstratos. Para enfrentar esses desafios, propomos duas novas tarefas: edição e geração multimodal baseada em instruções. Essas tarefas suportam instruções tanto de texto quanto de imagem e ampliam o escopo para incluir conceitos concretos e abstratos, aumentando significativamente suas aplicações práticas. Apresentamos o DreamOmni2, que aborda dois desafios principais: criação de dados e design de estrutura do modelo. Nosso pipeline de síntese de dados consiste em três etapas: (1) usar um método de mistura de características para criar dados de extração para conceitos abstratos e concretos, (2) gerar dados de treinamento para edição multimodal baseada em instruções usando modelos de edição e extração, e (3) aplicar ainda mais o modelo de extração para criar dados de treinamento para edição multimodal baseada em instruções. Para a estrutura, a fim de lidar com entradas de múltiplas imagens, propomos um esquema de codificação de índice e deslocamento de codificação de posição, que ajuda o modelo a distinguir as imagens e evitar confusão de pixels. Além disso, introduzimos o treinamento conjunto com o VLM e nosso modelo de geração/edição para processar melhor instruções complexas. Adicionalmente, propomos benchmarks abrangentes para essas duas novas tarefas para impulsionar seu desenvolvimento. Experimentos mostram que o DreamOmni2 alcançou resultados impressionantes. Modelos e códigos serão disponibilizados.
English
Recent advancements in instruction-based image editing and subject-driven
generation have garnered significant attention, yet both tasks still face
limitations in meeting practical user needs. Instruction-based editing relies
solely on language instructions, which often fail to capture specific editing
details, making reference images necessary. Meanwhile, subject-driven
generation is limited to combining concrete objects or people, overlooking
broader, abstract concepts. To address these challenges, we propose two novel
tasks: multimodal instruction-based editing and generation. These tasks support
both text and image instructions and extend the scope to include both concrete
and abstract concepts, greatly enhancing their practical applications. We
introduce DreamOmni2, tackling two primary challenges: data creation and model
framework design. Our data synthesis pipeline consists of three steps: (1)
using a feature mixing method to create extraction data for both abstract and
concrete concepts, (2) generating multimodal instruction-based editing training
data using the editing and extraction models, and (3) further applying the
extraction model to create training data for multimodal instruction-based
editing. For the framework, to handle multi-image input, we propose an index
encoding and position encoding shift scheme, which helps the model distinguish
images and avoid pixel confusion. Additionally, we introduce joint training
with the VLM and our generation/editing model to better process complex
instructions. In addition, we have proposed comprehensive benchmarks for these
two new tasks to drive their development. Experiments show that DreamOmni2 has
achieved impressive results. Models and codes will be released.