シンプルな編集を超えて:複雑な指示に基づく画像編集のためのX-Planner
Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing
July 7, 2025
著者: Chun-Hsiao Yeh, Yilin Wang, Nanxuan Zhao, Richard Zhang, Yuheng Li, Yi Ma, Krishna Kumar Singh
cs.AI
要旨
最近の拡散モデルベースの画像編集手法は、テキストガイド付きタスクにおいて大幅な進歩を遂げていますが、複雑で間接的な指示の解釈に苦戦することが多いです。さらに、現在のモデルは、アイデンティティの保持が不十分であったり、意図しない編集が発生したり、手動マスクへの依存度が高いといった課題を抱えています。これらの課題に対処するため、我々はX-Plannerを導入しました。これは、マルチモーダル大規模言語モデル(MLLM)ベースの計画システムであり、ユーザーの意図と編集モデルの能力を効果的に橋渡しします。X-Plannerは、連鎖的思考(chain-of-thought)推論を用いて、複雑な指示を体系的に単純で明確なサブ指示に分解します。各サブ指示に対して、X-Plannerは正確な編集タイプとセグメンテーションマスクを自動生成し、手動介入を排除しつつ、局所的でアイデンティティを保持する編集を実現します。さらに、X-Plannerを訓練するための大規模データを生成する新しい自動化パイプラインを提案し、既存のベンチマークと新たに導入した複雑編集ベンチマークの両方で最先端の結果を達成しました。
English
Recent diffusion-based image editing methods have significantly advanced
text-guided tasks but often struggle to interpret complex, indirect
instructions. Moreover, current models frequently suffer from poor identity
preservation, unintended edits, or rely heavily on manual masks. To address
these challenges, we introduce X-Planner, a Multimodal Large Language Model
(MLLM)-based planning system that effectively bridges user intent with editing
model capabilities. X-Planner employs chain-of-thought reasoning to
systematically decompose complex instructions into simpler, clear
sub-instructions. For each sub-instruction, X-Planner automatically generates
precise edit types and segmentation masks, eliminating manual intervention and
ensuring localized, identity-preserving edits. Additionally, we propose a novel
automated pipeline for generating large-scale data to train X-Planner which
achieves state-of-the-art results on both existing benchmarks and our newly
introduced complex editing benchmark.