ChatPaper.aiChatPaper

MIGE: マルチモーダル命令ベースの画像生成と編集のための統合フレームワーク

MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing

February 28, 2025
著者: Xueyun Tian, Wei Li, Bingbing Xu, Yige Yuan, Yuanzhuo Wang, Huawei Shen
cs.AI

要旨

拡散モデルに基づく画像生成において大きな進展があったにもかかわらず、被写体駆動型生成と指示に基づく編集は依然として課題となっています。既存の手法では、これらを別々に扱うことが一般的で、高品質なデータの不足や汎化性能の低さに苦戦しています。しかし、どちらのタスクも、入力と出力の一貫性を保ちながら複雑な視覚的バリエーションを捉えることを必要とします。そこで我々は、マルチモーダルな指示を用いてタスク表現を標準化する統一フレームワークであるMIGEを提案します。MIGEは、被写体駆動型生成を白紙のキャンバス上での創作として、指示に基づく編集を既存の画像の修正として扱い、共有された入出力形式を確立します。MIGEは、自由形式のマルチモーダルな指示を統一された視覚-言語空間にマッピングする新しいマルチモーダルエンコーダを導入し、特徴融合メカニズムを通じて視覚的および意味的特徴を統合します。この統一により、両タスクの共同訓練が可能となり、以下の2つの主要な利点を提供します:(1) クロスタスク強化:共有された視覚的および意味的表現を活用することで、被写体駆動型生成と指示に基づく編集の両方において、指示の遵守と視覚的一貫性が向上します。(2) 汎化:統一された形式での学習により、クロスタスク間の知識転移が促進され、MIGEは指示に基づく被写体駆動型編集を含む新しい合成的タスクに汎化することが可能になります。実験結果は、MIGEが被写体駆動型生成と指示に基づく編集の両方で優れた性能を発揮し、指示に基づく被写体駆動型編集という新たなタスクにおいても最先端の結果を達成することを示しています。コードとモデルはhttps://github.com/Eureka-Maggie/MIGEで公開されています。
English
Despite significant progress in diffusion-based image generation, subject-driven generation and instruction-based editing remain challenging. Existing methods typically treat them separately, struggling with limited high-quality data and poor generalization. However, both tasks require capturing complex visual variations while maintaining consistency between inputs and outputs. Therefore, we propose MIGE, a unified framework that standardizes task representations using multimodal instructions. It treats subject-driven generation as creation on a blank canvas and instruction-based editing as modification of an existing image, establishing a shared input-output formulation. MIGE introduces a novel multimodal encoder that maps free-form multimodal instructions into a unified vision-language space, integrating visual and semantic features through a feature fusion mechanism.This unification enables joint training of both tasks, providing two key advantages: (1) Cross-Task Enhancement: By leveraging shared visual and semantic representations, joint training improves instruction adherence and visual consistency in both subject-driven generation and instruction-based editing. (2) Generalization: Learning in a unified format facilitates cross-task knowledge transfer, enabling MIGE to generalize to novel compositional tasks, including instruction-based subject-driven editing. Experiments show that MIGE excels in both subject-driven generation and instruction-based editing while setting a state-of-the-art in the new task of instruction-based subject-driven editing. Code and model have been publicly available at https://github.com/Eureka-Maggie/MIGE.

Summary

AI-Generated Summary

PDF52March 3, 2025