ChatPaper.aiChatPaper

MIRA : Agent de Raisonnement Itératif Multimodal pour l'Édition d'Image

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

November 26, 2025
papers.authors: Ziyun Zeng, Hang Hua, Jiebo Luo
cs.AI

papers.abstract

L'édition d'images guidée par instructions offre une méthode intuitive permettant aux utilisateurs de modifier des images avec le langage naturel. Cependant, les modèles d'édition basés sur la diffusion peinent souvent à interpréter avec précision des instructions utilisateur complexes, en particulier celles impliquant des relations compositionnelles, des indices contextuels ou des expressions référentielles, ce qui conduit à des modifications qui dérivent sémantiquement ou ne reflètent pas les changements souhaités. Nous abordons ce problème en proposant MIRA (Multimodal Iterative Reasoning Agent), un agent de raisonnement multimodal léger et prêt à l'emploi qui effectue l'édition via une boucle itérative perception-raisonnement-action, simulant efficacement les processus d'interaction humain-modèle en plusieurs tours. Au lieu de fournir une seule instruction ou un plan statique, MIRA prédit des instructions d'édition atomiques étape par étape, en utilisant le retour visuel pour prendre ses décisions. Notre jeu de données multimodal de 150 000 échantillons d'utilisation d'outils, MIRA-Editing, combiné à une pipeline d'entraînement en deux étapes SFT + GRPO, permet à MIRA d'effectuer un raisonnement et une édition sur des instructions complexes. Lorsqu'il est couplé à des modèles open-source d'édition d'images tels que Flux.1-Kontext, Step1X-Edit et Qwen-Image-Edit, MIRA améliore significativement à la fois la cohérence sémantique et la qualité perceptuelle, atteignant des performances comparables ou supérieures à des systèmes propriétaires tels que GPT-Image et Nano-Banana.
English
Instruction-guided image editing offers an intuitive way for users to edit images with natural language. However, diffusion-based editing models often struggle to accurately interpret complex user instructions, especially those involving compositional relationships, contextual cues, or referring expressions, leading to edits that drift semantically or fail to reflect the intended changes. We tackle this problem by proposing MIRA (Multimodal Iterative Reasoning Agent), a lightweight, plug-and-play multimodal reasoning agent that performs editing through an iterative perception-reasoning-action loop, effectively simulating multi-turn human-model interaction processes. Instead of issuing a single prompt or static plan, MIRA predicts atomic edit instructions step by step, using visual feedback to make its decisions. Our 150K multimodal tool-use dataset, MIRA-Editing, combined with a two-stage SFT + GRPO training pipeline, enables MIRA to perform reasoning and editing over complex editing instructions. When paired with open-source image editing models such as Flux.1-Kontext, Step1X-Edit, and Qwen-Image-Edit, MIRA significantly improves both semantic consistency and perceptual quality, achieving performance comparable to or exceeding proprietary systems such as GPT-Image and Nano-Banana.
PDF92December 1, 2025