DreamOmni2: Edición y Generación Multimodal Basada en Instrucciones
DreamOmni2: Multimodal Instruction-based Editing and Generation
October 8, 2025
Autores: Bin Xia, Bohao Peng, Yuechen Zhang, Junjia Huang, Jiyang Liu, Jingyao Li, Haoru Tan, Sitong Wu, Chengyao Wang, Yitong Wang, Xinglong Wu, Bei Yu, Jiaya Jia
cs.AI
Resumen
Los avances recientes en la edición de imágenes basada en instrucciones y la generación impulsada por sujetos han captado una atención significativa, aunque ambas tareas aún enfrentan limitaciones para satisfacer las necesidades prácticas de los usuarios. La edición basada en instrucciones depende únicamente de instrucciones lingüísticas, que a menudo no logran capturar detalles específicos de la edición, lo que hace necesarias imágenes de referencia. Mientras tanto, la generación impulsada por sujetos se limita a combinar objetos o personas concretos, pasando por alto conceptos más amplios y abstractos. Para abordar estos desafíos, proponemos dos nuevas tareas: la edición y generación multimodal basada en instrucciones. Estas tareas admiten tanto instrucciones de texto como de imagen y amplían su alcance para incluir conceptos tanto concretos como abstractos, mejorando significativamente sus aplicaciones prácticas. Presentamos DreamOmni2, que aborda dos desafíos principales: la creación de datos y el diseño del marco del modelo. Nuestra canalización de síntesis de datos consta de tres pasos: (1) utilizar un método de mezcla de características para crear datos de extracción tanto para conceptos abstractos como concretos, (2) generar datos de entrenamiento para la edición multimodal basada en instrucciones utilizando modelos de edición y extracción, y (3) aplicar adicionalmente el modelo de extracción para crear datos de entrenamiento para la edición multimodal basada en instrucciones. Para el marco, con el fin de manejar la entrada de múltiples imágenes, proponemos un esquema de codificación de índice y desplazamiento de codificación de posición, que ayuda al modelo a distinguir las imágenes y evitar la confusión de píxeles. Además, introducimos un entrenamiento conjunto con el VLM y nuestro modelo de generación/edición para procesar mejor instrucciones complejas. Además, hemos propuesto puntos de referencia integrales para estas dos nuevas tareas para impulsar su desarrollo. Los experimentos muestran que DreamOmni2 ha logrado resultados impresionantes. Los modelos y códigos serán publicados.
English
Recent advancements in instruction-based image editing and subject-driven
generation have garnered significant attention, yet both tasks still face
limitations in meeting practical user needs. Instruction-based editing relies
solely on language instructions, which often fail to capture specific editing
details, making reference images necessary. Meanwhile, subject-driven
generation is limited to combining concrete objects or people, overlooking
broader, abstract concepts. To address these challenges, we propose two novel
tasks: multimodal instruction-based editing and generation. These tasks support
both text and image instructions and extend the scope to include both concrete
and abstract concepts, greatly enhancing their practical applications. We
introduce DreamOmni2, tackling two primary challenges: data creation and model
framework design. Our data synthesis pipeline consists of three steps: (1)
using a feature mixing method to create extraction data for both abstract and
concrete concepts, (2) generating multimodal instruction-based editing training
data using the editing and extraction models, and (3) further applying the
extraction model to create training data for multimodal instruction-based
editing. For the framework, to handle multi-image input, we propose an index
encoding and position encoding shift scheme, which helps the model distinguish
images and avoid pixel confusion. Additionally, we introduce joint training
with the VLM and our generation/editing model to better process complex
instructions. In addition, we have proposed comprehensive benchmarks for these
two new tasks to drive their development. Experiments show that DreamOmni2 has
achieved impressive results. Models and codes will be released.