MIRA: 画像編集のためのマルチモーダル反復推論エージェント
MIRA: Multimodal Iterative Reasoning Agent for Image Editing
November 26, 2025
著者: Ziyun Zeng, Hang Hua, Jiebo Luo
cs.AI
要旨
指示文による画像編集は、ユーザーが自然言語で画像を編集する直感的な方法を提供します。しかし、拡散モデルベースの編集モデルは、複雑なユーザー指示(特に構成的関係、文脈的手がかり、または参照表現を含む指示)を正確に解釈することに苦戦し、意味的に逸脱した編集や意図した変更が反映されない結果を招くことがよくあります。我々はこの問題に取り組むため、軽量でプラグアンドプレイ可能なマルチモーダル推論エージェントであるMIRA(Multimodal Iterative Reasoning Agent)を提案します。MIRAは反復的な知覚-推論-アクションループを通じて編集を実行し、多段階の人間-モデル相互作用プロセスを効果的に模倣します。単一のプロンプトや静的な計画を発行する代わりに、MIRAは視覚的フィードバックを利用して判断を行い、原子編集指示を段階的に予測します。15万サンプルからなるマルチモーダルツール使用データセットMIRA-Editingと、2段階のSFT+GRPOトレーニングパイプラインを組み合わせることで、MIRAは複雑な編集指示に対する推論と編集を実行可能になります。Flux.1-Kontext、Step1X-Edit、Qwen-Image-Editなどのオープンソース画像編集モデルと組み合わせた場合、MIRAは意味的一貫性と知覚的品質の両方を大幅に改善し、GPT-ImageやNano-Bananaなどのプロプライエタリシステムに匹敵する、またはそれを上回る性能を達成します。
English
Instruction-guided image editing offers an intuitive way for users to edit images with natural language. However, diffusion-based editing models often struggle to accurately interpret complex user instructions, especially those involving compositional relationships, contextual cues, or referring expressions, leading to edits that drift semantically or fail to reflect the intended changes. We tackle this problem by proposing MIRA (Multimodal Iterative Reasoning Agent), a lightweight, plug-and-play multimodal reasoning agent that performs editing through an iterative perception-reasoning-action loop, effectively simulating multi-turn human-model interaction processes. Instead of issuing a single prompt or static plan, MIRA predicts atomic edit instructions step by step, using visual feedback to make its decisions. Our 150K multimodal tool-use dataset, MIRA-Editing, combined with a two-stage SFT + GRPO training pipeline, enables MIRA to perform reasoning and editing over complex editing instructions. When paired with open-source image editing models such as Flux.1-Kontext, Step1X-Edit, and Qwen-Image-Edit, MIRA significantly improves both semantic consistency and perceptual quality, achieving performance comparable to or exceeding proprietary systems such as GPT-Image and Nano-Banana.