DreamOmni3 : Édition et Génération Assistée par Gribouillis
DreamOmni3: Scribble-based Editing and Generation
December 27, 2025
papers.authors: Bin Xia, Bohao Peng, Jiyang Liu, Sitong Wu, Jingyao Li, Junjia Huang, Xu Zhao, Yitong Wang, Ruihang Chu, Bei Yu, Jiaya Jia
cs.AI
papers.abstract
Les modèles récemment unifiés de génération et d'édition ont obtenu un succès remarquable grâce à leurs performances impressionnantes. Ces modèles s'appuient principalement sur des invites textuelles pour l'édition et la génération basées sur des instructions, mais le langage échoue souvent à capturer les emplacements d'édition souhaités par les utilisateurs et les détails visuels fins. Pour cela, nous proposons deux tâches : l'édition et la génération basées sur des gribouillis, qui permettent une création plus flexible sur une interface graphique (GUI) combinant le texte, les images et les croquis libres de l'utilisateur. Nous présentons DreamOmni3, abordant deux défis : la création de données et la conception du cadre. Notre pipeline de synthèse de données comprend deux parties : l'édition et la génération basées sur des gribouillis. Pour l'édition basée sur des gribouillis, nous définissons quatre tâches : l'édition basée sur des gribouillis et des instructions, l'édition multimodale basée sur des gribouillis et des instructions, la fusion d'images et l'édition de dessins. En nous appuyant sur l'ensemble de données DreamOmni2, nous extrayons les régions modifiables et superposons des boîtes, des cercles, des dessins ou des images rognées dessinés à la main pour construire les données d'entraînement. Pour la génération basée sur des gribouillis, nous définissons trois tâches : la génération basée sur des gribouillis et des instructions, la génération multimodale basée sur des gribouillis et des instructions, et la génération de dessins, suivant des pipelines de création de données similaires. Pour le cadre, au lieu d'utiliser des masques binaires, qui peinent avec les modifications complexes impliquant plusieurs gribouillis, images et instructions, nous proposons un schéma d'entrée conjoint qui alimente le modèle à la fois avec l'image source originale et l'image source gribouillée, en utilisant différentes couleurs pour distinguer les régions et simplifier le traitement. En appliquant les mêmes encodages d'index et de position aux deux images, le modèle peut localiser précisément les régions gribouillées tout en maintenant une édition précise. Enfin, nous établissons des référentiels complets pour ces tâches afin de promouvoir la recherche future. Les résultats expérimentaux démontrent que DreamOmni3 atteint des performances exceptionnelles, et les modèles et le code seront rendus publics.
English
Recently unified generation and editing models have achieved remarkable success with their impressive performance. These models rely mainly on text prompts for instruction-based editing and generation, but language often fails to capture users intended edit locations and fine-grained visual details. To this end, we propose two tasks: scribble-based editing and generation, that enables more flexible creation on graphical user interface (GUI) combining user textual, images, and freehand sketches. We introduce DreamOmni3, tackling two challenges: data creation and framework design. Our data synthesis pipeline includes two parts: scribble-based editing and generation. For scribble-based editing, we define four tasks: scribble and instruction-based editing, scribble and multimodal instruction-based editing, image fusion, and doodle editing. Based on DreamOmni2 dataset, we extract editable regions and overlay hand-drawn boxes, circles, doodles or cropped image to construct training data. For scribble-based generation, we define three tasks: scribble and instruction-based generation, scribble and multimodal instruction-based generation, and doodle generation, following similar data creation pipelines. For the framework, instead of using binary masks, which struggle with complex edits involving multiple scribbles, images, and instructions, we propose a joint input scheme that feeds both the original and scribbled source images into the model, using different colors to distinguish regions and simplify processing. By applying the same index and position encodings to both images, the model can precisely localize scribbled regions while maintaining accurate editing. Finally, we establish comprehensive benchmarks for these tasks to promote further research. Experimental results demonstrate that DreamOmni3 achieves outstanding performance, and models and code will be publicly released.