DreamOmni3: Edição e Geração Baseada em Rascunhos

Resumo

Os modelos recentemente unificados de geração e edição alcançaram sucesso notável com seu desempenho impressionante. Esses modelos dependem principalmente de prompts de texto para edição e geração baseadas em instrução, mas a linguagem frequentemente falha em capturar os locais de edição pretendidos pelos usuários e os detalhes visuais refinados. Para isso, propomos duas tarefas: edição e geração baseadas em rabiscos, que permitem uma criação mais flexível em interfaces gráficas de usuário (GUI) combinando texto, imagens e esboços à mão livre do usuário. Apresentamos o DreamOmni3, abordando dois desafios: criação de dados e design de estrutura. Nossa pipeline de síntese de dados inclui duas partes: edição e geração baseadas em rabiscos. Para edição baseada em rabisco, definimos quatro tarefas: edição baseada em rabisco e instrução, edição baseada em rabisco e instrução multimodal, fusão de imagens e edição de rabiscos. Com base no conjunto de dados DreamOmni2, extraímos regiões editáveis e sobrepomos caixas desenhadas à mão, círculos, rabiscos ou imagens recortadas para construir dados de treinamento. Para geração baseada em rabisco, definimos três tarefas: geração baseada em rabisco e instrução, geração baseada em rabisco e instrução multimodal e geração de rabiscos, seguindo pipelines de criação de dados semelhantes. Para a estrutura, em vez de usar máscaras binárias, que lutam com edições complexas envolvendo múltiplos rabiscos, imagens e instruções, propomos um esquema de entrada conjunto que alimenta a imagem original e a imagem fonte rabiscada no modelo, usando cores diferentes para distinguir regiões e simplificar o processamento. Aplicando as mesmas codificações de índice e posição a ambas as imagens, o modelo pode localizar com precisão as regiões rabiscadas, mantendo uma edição precisa. Finalmente, estabelecemos benchmarks abrangentes para essas tarefas para promover mais pesquisas. Os resultados experimentais demonstram que o DreamOmni3 alcança um desempenho excepcional, e os modelos e o código serão disponibilizados publicamente.

English

Recently unified generation and editing models have achieved remarkable success with their impressive performance. These models rely mainly on text prompts for instruction-based editing and generation, but language often fails to capture users intended edit locations and fine-grained visual details. To this end, we propose two tasks: scribble-based editing and generation, that enables more flexible creation on graphical user interface (GUI) combining user textual, images, and freehand sketches. We introduce DreamOmni3, tackling two challenges: data creation and framework design. Our data synthesis pipeline includes two parts: scribble-based editing and generation. For scribble-based editing, we define four tasks: scribble and instruction-based editing, scribble and multimodal instruction-based editing, image fusion, and doodle editing. Based on DreamOmni2 dataset, we extract editable regions and overlay hand-drawn boxes, circles, doodles or cropped image to construct training data. For scribble-based generation, we define three tasks: scribble and instruction-based generation, scribble and multimodal instruction-based generation, and doodle generation, following similar data creation pipelines. For the framework, instead of using binary masks, which struggle with complex edits involving multiple scribbles, images, and instructions, we propose a joint input scheme that feeds both the original and scribbled source images into the model, using different colors to distinguish regions and simplify processing. By applying the same index and position encodings to both images, the model can precisely localize scribbled regions while maintaining accurate editing. Finally, we establish comprehensive benchmarks for these tasks to promote further research. Experimental results demonstrate that DreamOmni3 achieves outstanding performance, and models and code will be publicly released.

DreamOmni3: Edição e Geração Baseada em Rascunhos

DreamOmni3: Scribble-based Editing and Generation

Resumo

Support