ChatPaper.aiChatPaper

DreamOmni3: Scribble-basierte Bearbeitung und Erzeugung

DreamOmni3: Scribble-based Editing and Generation

December 27, 2025
papers.authors: Bin Xia, Bohao Peng, Jiyang Liu, Sitong Wu, Jingyao Li, Junjia Huang, Xu Zhao, Yitong Wang, Ruihang Chu, Bei Yu, Jiaya Jia
cs.AI

papers.abstract

Kürzlich vereinheitlichte Generierungs- und Bearbeitungsmodelle haben bemerkenswerte Erfolge mit beeindruckender Leistung erzielt. Diese Modelle stützen sich hauptsächlich auf Textprompts für instruktionsbasierte Bearbeitung und Generierung, doch Sprache erfasst oft nicht die beabsichtigten Bearbeitungsbereiche der Nutzer oder fein granulare visuelle Details. Zu diesem Zweck schlagen wir zwei Aufgaben vor: scribbelbasierte Bearbeitung und Generierung, die eine flexiblere Erstellung auf grafischen Benutzeroberflächen (GUI) durch die Kombination von Text, Bildern und Freihandskizzen ermöglichen. Wir stellen DreamOmni3 vor, das zwei Herausforderungen angeht: Datenerstellung und Framework-Design. Unsere Daten-Synthese-Pipeline umfasst zwei Teile: scribbelbasierte Bearbeitung und Generierung. Für scribbelbasierte Bearbeitung definieren wir vier Aufgaben: Scribbel- und instruktionsbasierte Bearbeitung, Scribbel- und multimodal instruktionsbasierte Bearbeitung, Bildfusion und Scribbel-Bearbeitung (Doodling). Basierend auf dem DreamOmni2-Datensatz extrahieren wir bearbeitbare Regionen und überlagern handgezeichnete Kästen, Kreise, Kritzeleien oder zugeschnittene Bilder, um Trainingsdaten zu konstruieren. Für scribbelbasierte Generierung definieren wir drei Aufgaben: Scribbel- und instruktionsbasierte Generierung, Scribbel- und multimodal instruktionsbasierte Generierung sowie Scribbel-Generierung (Doodling), nach ähnlichen Daten-Erstellungs-Pipelines. Für das Framework schlagen wir statt der Verwendung binärer Masken, die bei komplexen Bearbeitungen mit mehreren Scribbeln, Bildern und Instruktionen Schwierigkeiten haben, ein gemeinsames Eingabeschema vor, das sowohl das Original- als auch das scribbelbearbeitete Quellbild in das Model einspeist und dabei verschiedene Farben zur Unterscheidung der Regionen und Vereinfachung der Verarbeitung nutzt. Durch Anwendung derselben Index- und Positionskodierungen auf beide Bilder kann das Model scribbelierte Regionen präzise lokalisieren und gleichzeitig eine genaue Bearbeitung aufrechterhalten. Schließlich etablieren wir umfassende Benchmarks für diese Aufgaben, um die weitere Forschung zu fördern. Experimentelle Ergebnisse zeigen, dass DreamOmni3 herausragende Leistungen erzielt; Modelle und Code werden öffentlich zugänglich gemacht.
English
Recently unified generation and editing models have achieved remarkable success with their impressive performance. These models rely mainly on text prompts for instruction-based editing and generation, but language often fails to capture users intended edit locations and fine-grained visual details. To this end, we propose two tasks: scribble-based editing and generation, that enables more flexible creation on graphical user interface (GUI) combining user textual, images, and freehand sketches. We introduce DreamOmni3, tackling two challenges: data creation and framework design. Our data synthesis pipeline includes two parts: scribble-based editing and generation. For scribble-based editing, we define four tasks: scribble and instruction-based editing, scribble and multimodal instruction-based editing, image fusion, and doodle editing. Based on DreamOmni2 dataset, we extract editable regions and overlay hand-drawn boxes, circles, doodles or cropped image to construct training data. For scribble-based generation, we define three tasks: scribble and instruction-based generation, scribble and multimodal instruction-based generation, and doodle generation, following similar data creation pipelines. For the framework, instead of using binary masks, which struggle with complex edits involving multiple scribbles, images, and instructions, we propose a joint input scheme that feeds both the original and scribbled source images into the model, using different colors to distinguish regions and simplify processing. By applying the same index and position encodings to both images, the model can precisely localize scribbled regions while maintaining accurate editing. Finally, we establish comprehensive benchmarks for these tasks to promote further research. Experimental results demonstrate that DreamOmni3 achieves outstanding performance, and models and code will be publicly released.
PDF102January 1, 2026