BrushEdit: 画像修復と編集を一括で行うツール
BrushEdit: All-In-One Image Inpainting and Editing
December 13, 2024
著者: Yaowei Li, Yuxuan Bian, Xuan Ju, Zhaoyang Zhang, Ying Shan, Qiang Xu
cs.AI
要旨
画像編集は、拡散モデルの開発により大幅に進化しており、逆伝播ベースと命令ベースの両方の手法が使用されています。ただし、現在の逆伝播ベースのアプローチは、逆伝播ノイズの構造化された性質により、大幅な変更(例:オブジェクトの追加や削除)に苦労しており、実質的な変更が妨げられています。一方、命令ベースの手法は、しばしばユーザーをブラックボックス操作に制約し、編集領域や強度を指定するための直接的な対話を制限しています。これらの制限に対処するために、私たちはBrushEditを提案します。これは、画像修復をベースとした命令案内型画像編集パラダイムであり、多モーダル大規模言語モデル(MLLMs)と画像修復モデルを活用して、自律的でユーザーフレンドリーかつインタラクティブなフリーフォーム命令編集を実現します。具体的には、MLLMsとデュアルブランチ画像修復モデルを統合したエージェント協調フレームワークにより、編集カテゴリの分類、主要オブジェクトの識別、マスク取得、および編集領域の修復を実行することで、フリーフォーム命令編集を可能にするシステムを構築しています。幅広い実験により、当社のフレームワークがMLLMsと修復モデルを効果的に組み合わせ、マスク領域の保存と編集効果の一貫性を含む7つのメトリックで優れたパフォーマンスを達成していることが示されています。
English
Image editing has advanced significantly with the development of diffusion
models using both inversion-based and instruction-based methods. However,
current inversion-based approaches struggle with big modifications (e.g.,
adding or removing objects) due to the structured nature of inversion noise,
which hinders substantial changes. Meanwhile, instruction-based methods often
constrain users to black-box operations, limiting direct interaction for
specifying editing regions and intensity. To address these limitations, we
propose BrushEdit, a novel inpainting-based instruction-guided image editing
paradigm, which leverages multimodal large language models (MLLMs) and image
inpainting models to enable autonomous, user-friendly, and interactive
free-form instruction editing. Specifically, we devise a system enabling
free-form instruction editing by integrating MLLMs and a dual-branch image
inpainting model in an agent-cooperative framework to perform editing category
classification, main object identification, mask acquisition, and editing area
inpainting. Extensive experiments show that our framework effectively combines
MLLMs and inpainting models, achieving superior performance across seven
metrics including mask region preservation and editing effect coherence.Summary
AI-Generated Summary