MIRA: Agente de Razonamiento Iterativo Multimodal para Edición de Imágenes
MIRA: Multimodal Iterative Reasoning Agent for Image Editing
November 26, 2025
Autores: Ziyun Zeng, Hang Hua, Jiebo Luo
cs.AI
Resumen
La edición de imágenes guiada por instrucciones ofrece una forma intuitiva para que los usuarios editen imágenes con lenguaje natural. Sin embargo, los modelos de edición basados en difusión a menudo tienen dificultades para interpretar con precisión instrucciones de usuario complejas, especialmente aquellas que involucran relaciones compositivas, claves contextuales o expresiones referenciales, lo que genera ediciones que se desvían semánticamente o no reflejan los cambios deseados. Abordamos este problema proponiendo MIRA (Agente de Razonamiento Multimodal Iterativo), un agente de razonamiento multimodal ligero y listo para usar que realiza ediciones mediante un bucle iterativo de percepción-razonamiento-acción, simulando efectivamente los procesos de interacción humano-modelo de múltiples turnos. En lugar de emitir una única instrucción o un plan estático, MIRA predice instrucciones de edición atómicas paso a paso, utilizando retroalimentación visual para tomar sus decisiones. Nuestro conjunto de datos multimodal de 150K para uso de herramientas, MIRA-Editing, combinado con una canalización de entrenamiento de dos etapas SFT + GRPO, permite a MIRA realizar razonamiento y edición sobre instrucciones de edición complejas. Cuando se empareja con modelos de edición de imágenes de código abierto como Flux.1-Kontext, Step1X-Edit y Qwen-Image-Edit, MIRA mejora significativamente tanto la consistencia semántica como la calidad perceptual, logrando un rendimiento comparable o superior a sistemas propietarios como GPT-Image y Nano-Banana.
English
Instruction-guided image editing offers an intuitive way for users to edit images with natural language. However, diffusion-based editing models often struggle to accurately interpret complex user instructions, especially those involving compositional relationships, contextual cues, or referring expressions, leading to edits that drift semantically or fail to reflect the intended changes. We tackle this problem by proposing MIRA (Multimodal Iterative Reasoning Agent), a lightweight, plug-and-play multimodal reasoning agent that performs editing through an iterative perception-reasoning-action loop, effectively simulating multi-turn human-model interaction processes. Instead of issuing a single prompt or static plan, MIRA predicts atomic edit instructions step by step, using visual feedback to make its decisions. Our 150K multimodal tool-use dataset, MIRA-Editing, combined with a two-stage SFT + GRPO training pipeline, enables MIRA to perform reasoning and editing over complex editing instructions. When paired with open-source image editing models such as Flux.1-Kontext, Step1X-Edit, and Qwen-Image-Edit, MIRA significantly improves both semantic consistency and perceptual quality, achieving performance comparable to or exceeding proprietary systems such as GPT-Image and Nano-Banana.