DreamOmni3: Bewerken en genereren op basis van krabbels
DreamOmni3: Scribble-based Editing and Generation
December 27, 2025
Auteurs: Bin Xia, Bohao Peng, Jiyang Liu, Sitong Wu, Jingyao Li, Junjia Huang, Xu Zhao, Yitong Wang, Ruihang Chu, Bei Yu, Jiaya Jia
cs.AI
Samenvatting
Recentelijk hebben geünificeerde generatie- en bewerkingsmodellen opmerkelijke successen geboekt met hun indrukwekkende prestaties. Deze modellen vertrouwen voornamelijk op tekstprompts voor op instructies gebaseerde bewerking en generatie, maar taal slaagt er vaak niet in de beoogde bewerkingslocaties en fijnmazige visuele details van gebruikers vast te leggen. Daartoe stellen we twee taken voor: op krabbels gebaseerde bewerking en generatie, die een flexibelere creatie mogelijk maken op een grafische gebruikersinterface (GUI) door gebruikers tekst, afbeeldingen en vrije handgetekende schetsen te combineren. Wij introduceren DreamOmni3, dat twee uitdagingen aanpakt: datacreatie en frameworkontwerp. Onze datasynthesepijplijn omvat twee delen: op krabbels gebaseerde bewerking en generatie. Voor op krabbels gebaseerde bewerking definiëren we vier taken: bewerking op basis van krabbels en instructies, bewerking op basis van krabbels en multimodale instructies, beeldfusie en krabbelbewerking. Op basis van de DreamOmni2-dataset extraheren we bewerkbare regio's en leggen we handgetekende vierkanten, cirkels, krabbels of bijgesneden afbeeldingen over om trainingsdata te construeren. Voor op krabbels gebaseerde generatie definiëren we drie taken: generatie op basis van krabbels en instructies, generatie op basis van krabbels en multimodale instructies, en krabbelgeneratie, waarbij vergelijkbare datacreatiepijplijnen worden gevolgd. Voor het framework stellen we, in plaats van binaire maskers te gebruiken die moeite hebben met complexe bewerkingen met meerdere krabbels, afbeeldingen en instructies, een gezamenlijk invoerschema voor dat zowel de originele als de bekrabbelde bronafbeeldingen aan het model voert, waarbij verschillende kleuren worden gebruikt om regio's te onderscheiden en de verwerking te vereenvoudigen. Door dezelfde index- en positiecoderingen op beide afbeeldingen toe te passen, kan het model de bekrabbelde regio's nauwkeurig lokaliseren terwijl het precieze bewerking behoudt. Ten slotte stellen we uitgebreide benchmarks op voor deze taken om verder onderzoek te bevorderen. Experimentele resultaten tonen aan dat DreamOmni3 uitstekende prestaties levert, en modellen en code zullen openbaar worden vrijgegeven.
English
Recently unified generation and editing models have achieved remarkable success with their impressive performance. These models rely mainly on text prompts for instruction-based editing and generation, but language often fails to capture users intended edit locations and fine-grained visual details. To this end, we propose two tasks: scribble-based editing and generation, that enables more flexible creation on graphical user interface (GUI) combining user textual, images, and freehand sketches. We introduce DreamOmni3, tackling two challenges: data creation and framework design. Our data synthesis pipeline includes two parts: scribble-based editing and generation. For scribble-based editing, we define four tasks: scribble and instruction-based editing, scribble and multimodal instruction-based editing, image fusion, and doodle editing. Based on DreamOmni2 dataset, we extract editable regions and overlay hand-drawn boxes, circles, doodles or cropped image to construct training data. For scribble-based generation, we define three tasks: scribble and instruction-based generation, scribble and multimodal instruction-based generation, and doodle generation, following similar data creation pipelines. For the framework, instead of using binary masks, which struggle with complex edits involving multiple scribbles, images, and instructions, we propose a joint input scheme that feeds both the original and scribbled source images into the model, using different colors to distinguish regions and simplify processing. By applying the same index and position encodings to both images, the model can precisely localize scribbled regions while maintaining accurate editing. Finally, we establish comprehensive benchmarks for these tasks to promote further research. Experimental results demonstrate that DreamOmni3 achieves outstanding performance, and models and code will be publicly released.