DreamOmni3: Edición y Generación Basadas en Garabatos
DreamOmni3: Scribble-based Editing and Generation
December 27, 2025
Autores: Bin Xia, Bohao Peng, Jiyang Liu, Sitong Wu, Jingyao Li, Junjia Huang, Xu Zhao, Yitong Wang, Ruihang Chu, Bei Yu, Jiaya Jia
cs.AI
Resumen
Los modelos unificados de generación y edición recientemente desarrollados han logrado un éxito notable gracias a su impresionante rendimiento. Estos modelos se basan principalmente en indicaciones de texto para la edición y generación basadas en instrucciones, pero el lenguaje a menudo no logra capturar las ubicaciones de edición deseadas por los usuarios ni los detalles visuales de grano fino. Con este fin, proponemos dos tareas: la edición y generación basadas en garabatos, que permiten una creación más flexible en la interfaz gráfica de usuario (GUI) combinando texto, imágenes y bocetos libres del usuario. Presentamos DreamOmni3, abordando dos desafíos: la creación de datos y el diseño del marco de trabajo. Nuestra canalización de síntesis de datos incluye dos partes: edición y generación basadas en garabatos. Para la edición basada en garabatos, definimos cuatro tareas: edición basada en garabatos e instrucciones, edición multimodal basada en garabatos e instrucciones, fusión de imágenes y edición de dibujos. Basándonos en el conjunto de datos DreamOmni2, extraemos regiones editables y superponemos cajas, círculos, dibujos a mano alzada o imágenes recortadas para construir datos de entrenamiento. Para la generación basada en garabatos, definimos tres tareas: generación basada en garabatos e instrucciones, generación multimodal basada en garabatos e instrucciones, y generación de dibujos, siguiendo canalizaciones de creación de datos similares. Para el marco de trabajo, en lugar de utilizar máscaras binarias, que tienen dificultades con ediciones complejas que involucran múltiples garabatos, imágenes e instrucciones, proponemos un esquema de entrada conjunto que alimenta al modelo tanto con la imagen original como con la imagen fuente con garabatos, utilizando diferentes colores para distinguir regiones y simplificar el procesamiento. Al aplicar las mismas codificaciones de índice y posición a ambas imágenes, el modelo puede localizar con precisión las regiones garabateadas manteniendo una edición precisa. Finalmente, establecemos puntos de referencia integrales para estas tareas para promover futuras investigaciones. Los resultados experimentales demuestran que DreamOmni3 logra un rendimiento excepcional, y los modelos y el código serán liberados públicamente.
English
Recently unified generation and editing models have achieved remarkable success with their impressive performance. These models rely mainly on text prompts for instruction-based editing and generation, but language often fails to capture users intended edit locations and fine-grained visual details. To this end, we propose two tasks: scribble-based editing and generation, that enables more flexible creation on graphical user interface (GUI) combining user textual, images, and freehand sketches. We introduce DreamOmni3, tackling two challenges: data creation and framework design. Our data synthesis pipeline includes two parts: scribble-based editing and generation. For scribble-based editing, we define four tasks: scribble and instruction-based editing, scribble and multimodal instruction-based editing, image fusion, and doodle editing. Based on DreamOmni2 dataset, we extract editable regions and overlay hand-drawn boxes, circles, doodles or cropped image to construct training data. For scribble-based generation, we define three tasks: scribble and instruction-based generation, scribble and multimodal instruction-based generation, and doodle generation, following similar data creation pipelines. For the framework, instead of using binary masks, which struggle with complex edits involving multiple scribbles, images, and instructions, we propose a joint input scheme that feeds both the original and scribbled source images into the model, using different colors to distinguish regions and simplify processing. By applying the same index and position encodings to both images, the model can precisely localize scribbled regions while maintaining accurate editing. Finally, we establish comprehensive benchmarks for these tasks to promote further research. Experimental results demonstrate that DreamOmni3 achieves outstanding performance, and models and code will be publicly released.