DreamOmni3: Modifica e Generazione basate su Schizzi
DreamOmni3: Scribble-based Editing and Generation
December 27, 2025
Autori: Bin Xia, Bohao Peng, Jiyang Liu, Sitong Wu, Jingyao Li, Junjia Huang, Xu Zhao, Yitong Wang, Ruihang Chu, Bei Yu, Jiaya Jia
cs.AI
Abstract
I modelli di generazione e modifica recentemente unificati hanno ottenuto un notevole successo grazie alle loro prestazioni impressionanti. Questi modelli si basano principalmente su prompt testuali per la modifica e generazione basate su istruzioni, ma il linguaggio spesso non riesce a catturare le posizioni di modifica previste dagli utenti e i dettagli visivi granulari. A tal fine, proponiamo due compiti: modifica e generazione basate su schizzi, che consentono una creazione più flessibile sull'interfaccia utente grafica (GUI) combinando input testuali, immagini e schizzi a mano libera dell'utente. Introduciamo DreamOmni3, affrontando due sfide: creazione dei dati e progettazione del framework. La nostra pipeline di sintesi dei dati include due parti: modifica e generazione basate su schizzi. Per la modifica basata su schizzi, definiamo quattro compiti: modifica basata su schizzo e istruzione, modifica basata su schizzo e istruzione multimodale, fusione di immagini e modifica di scarabocchi. Basandoci sul dataset DreamOmni2, estraiamo regioni modificabili e sovrapponiamo box disegnati a mano, cerchi, scarabocchi o immagini ritagliate per costruire i dati di addestramento. Per la generazione basata su schizzi, definiamo tre compiti: generazione basata su schizzo e istruzione, generazione basata su schizzo e istruzione multimodale e generazione di scarabocchi, seguendo pipeline di creazione dati simili. Per il framework, invece di utilizzare maschere binarie, che faticano con modifiche complesse che coinvolgono più schizzi, immagini e istruzioni, proponiamo uno schema di input congiunto che fornisce al modello sia l'immagine sorgente originale che quella con gli schizzi, utilizzando colori diversi per distinguere le regioni e semplificare l'elaborazione. Applicando le stesse codifiche di indice e posizione a entrambe le immagini, il modello può localizzare con precisione le regioni schizzate mantenendo una modifica accurata. Infine, stabiliamo benchmark completi per questi compiti per promuovere ulteriori ricerche. I risultati sperimentali dimostrano che DreamOmni3 raggiunge prestazioni eccezionali, e i modelli e il codice saranno rilasciati pubblicamente.
English
Recently unified generation and editing models have achieved remarkable success with their impressive performance. These models rely mainly on text prompts for instruction-based editing and generation, but language often fails to capture users intended edit locations and fine-grained visual details. To this end, we propose two tasks: scribble-based editing and generation, that enables more flexible creation on graphical user interface (GUI) combining user textual, images, and freehand sketches. We introduce DreamOmni3, tackling two challenges: data creation and framework design. Our data synthesis pipeline includes two parts: scribble-based editing and generation. For scribble-based editing, we define four tasks: scribble and instruction-based editing, scribble and multimodal instruction-based editing, image fusion, and doodle editing. Based on DreamOmni2 dataset, we extract editable regions and overlay hand-drawn boxes, circles, doodles or cropped image to construct training data. For scribble-based generation, we define three tasks: scribble and instruction-based generation, scribble and multimodal instruction-based generation, and doodle generation, following similar data creation pipelines. For the framework, instead of using binary masks, which struggle with complex edits involving multiple scribbles, images, and instructions, we propose a joint input scheme that feeds both the original and scribbled source images into the model, using different colors to distinguish regions and simplify processing. By applying the same index and position encodings to both images, the model can precisely localize scribbled regions while maintaining accurate editing. Finally, we establish comprehensive benchmarks for these tasks to promote further research. Experimental results demonstrate that DreamOmni3 achieves outstanding performance, and models and code will be publicly released.