DreamOmni2: マルチモーダル命令ベースの編集と生成
DreamOmni2: Multimodal Instruction-based Editing and Generation
October 8, 2025
著者: Bin Xia, Bohao Peng, Yuechen Zhang, Junjia Huang, Jiyang Liu, Jingyao Li, Haoru Tan, Sitong Wu, Chengyao Wang, Yitong Wang, Xinglong Wu, Bei Yu, Jiaya Jia
cs.AI
要旨
近年、指示に基づく画像編集および被写体駆動生成の分野で大きな進展が見られるものの、これらのタスクは依然として実用的なユーザーニーズを満たす上で限界に直面している。指示に基づく編集は言語指示のみに依存しており、特定の編集詳細を捉えることがしばしば困難であるため、参照画像が必要となる。一方、被写体駆動生成は具体的な物体や人物の組み合わせに限定されており、より広範で抽象的な概念を見落としている。これらの課題に対処するため、我々はマルチモーダル指示に基づく編集と生成という二つの新たなタスクを提案する。これらのタスクはテキストと画像の両方の指示をサポートし、具体的および抽象的な概念を含む範囲を拡大することで、実用的な応用を大幅に向上させる。我々はDreamOmni2を導入し、データ作成とモデルフレームワーク設計という二つの主要な課題に取り組む。我々のデータ合成パイプラインは以下の三つのステップから構成される:(1) 抽象および具体的な概念の抽出データを作成するための特徴混合手法の使用、(2) 編集および抽出モデルを用いてマルチモーダル指示に基づく編集のトレーニングデータを生成、(3) 抽出モデルをさらに適用してマルチモーダル指示に基づく編集のトレーニングデータを作成。フレームワークに関しては、複数画像の入力を処理するために、インデックスエンコーディングと位置エンコーディングシフトスキームを提案し、モデルが画像を区別しピクセルの混乱を避けることを支援する。さらに、VLMと我々の生成/編集モデルとの共同トレーニングを導入し、複雑な指示をより適切に処理する。加えて、これらの新たなタスクの開発を促進するための包括的なベンチマークを提案した。実験結果は、DreamOmni2が印象的な成果を達成したことを示している。モデルとコードは公開予定である。
English
Recent advancements in instruction-based image editing and subject-driven
generation have garnered significant attention, yet both tasks still face
limitations in meeting practical user needs. Instruction-based editing relies
solely on language instructions, which often fail to capture specific editing
details, making reference images necessary. Meanwhile, subject-driven
generation is limited to combining concrete objects or people, overlooking
broader, abstract concepts. To address these challenges, we propose two novel
tasks: multimodal instruction-based editing and generation. These tasks support
both text and image instructions and extend the scope to include both concrete
and abstract concepts, greatly enhancing their practical applications. We
introduce DreamOmni2, tackling two primary challenges: data creation and model
framework design. Our data synthesis pipeline consists of three steps: (1)
using a feature mixing method to create extraction data for both abstract and
concrete concepts, (2) generating multimodal instruction-based editing training
data using the editing and extraction models, and (3) further applying the
extraction model to create training data for multimodal instruction-based
editing. For the framework, to handle multi-image input, we propose an index
encoding and position encoding shift scheme, which helps the model distinguish
images and avoid pixel confusion. Additionally, we introduce joint training
with the VLM and our generation/editing model to better process complex
instructions. In addition, we have proposed comprehensive benchmarks for these
two new tasks to drive their development. Experiments show that DreamOmni2 has
achieved impressive results. Models and codes will be released.