ChatPaper.aiChatPaper

DreamOmni3:スクリブルベースの編集と生成

DreamOmni3: Scribble-based Editing and Generation

December 27, 2025
著者: Bin Xia, Bohao Peng, Jiyang Liu, Sitong Wu, Jingyao Li, Junjia Huang, Xu Zhao, Yitong Wang, Ruihang Chu, Bei Yu, Jiaya Jia
cs.AI

要旨

最近、生成と編集を統合したモデルが目覚ましい成功を収めています。これらのモデルは主にテキストプロンプトに依存して指示ベースの編集と生成を行いますが、言語ではユーザーが意図する編集位置や細かな視覚的詳細を十分に表現できません。この課題に対処するため、我々はスクリブル(自由描画)ベースの編集と生成という2つのタスクを提案します。これにより、GUI上でユーザーのテキスト、画像、手描きのスケッチを組み合わせたより柔軟な創作が可能になります。DreamOmni3を紹介し、データ作成とフレームワーク設計という2つの課題に取り組みます。 データ合成パイプラインは、スクリブルベース編集と生成の2部構成です。スクリブルベース編集では、(1)スクリブル+指示ベース編集、(2)スクリブル+マルチモーダル指示ベース編集、(3)画像融合、(4)落書き編集の4タスクを定義。DreamOmni2データセットを基に編集可能領域を抽出し、手描きの四角/円/落書き、または切り抜き画像を重ねて学習データを構築します。スクリブルベース生成では、(1)スクリブル+指示ベース生成、(2)スクリブル+マルチモーダル指示ベース生成、(3)落書き生成の3タスクを同様のパイプラインで構築。 フレームワークでは、複数のスクリブル・画像・指示が関わる複雑な編集に課題のあるバイナリマスクの代わりに、元画像とスクリブル描画済み画像の両方をモデルに入力する共同入力方式を提案。色分けで領域を区別し処理を簡素化します。両画像に同一のインデックスと位置エンコーディングを適用することで、モデルは編集精度を維持しつつスクリブル領域を正確に特定できます。最後に、これらのタスク包括的ベンチマークを確立し研究促進を図ります。実験結果はDreamOmni3が優れた性能を達成することを示し、モデルとコードは公開予定です。
English
Recently unified generation and editing models have achieved remarkable success with their impressive performance. These models rely mainly on text prompts for instruction-based editing and generation, but language often fails to capture users intended edit locations and fine-grained visual details. To this end, we propose two tasks: scribble-based editing and generation, that enables more flexible creation on graphical user interface (GUI) combining user textual, images, and freehand sketches. We introduce DreamOmni3, tackling two challenges: data creation and framework design. Our data synthesis pipeline includes two parts: scribble-based editing and generation. For scribble-based editing, we define four tasks: scribble and instruction-based editing, scribble and multimodal instruction-based editing, image fusion, and doodle editing. Based on DreamOmni2 dataset, we extract editable regions and overlay hand-drawn boxes, circles, doodles or cropped image to construct training data. For scribble-based generation, we define three tasks: scribble and instruction-based generation, scribble and multimodal instruction-based generation, and doodle generation, following similar data creation pipelines. For the framework, instead of using binary masks, which struggle with complex edits involving multiple scribbles, images, and instructions, we propose a joint input scheme that feeds both the original and scribbled source images into the model, using different colors to distinguish regions and simplify processing. By applying the same index and position encodings to both images, the model can precisely localize scribbled regions while maintaining accurate editing. Finally, we establish comprehensive benchmarks for these tasks to promote further research. Experimental results demonstrate that DreamOmni3 achieves outstanding performance, and models and code will be publicly released.
PDF102January 1, 2026