MIRA: Agente de Raciocínio Iterativo Multimodal para Edição de Imagens

Resumo

A edição de imagens guiada por instruções oferece uma forma intuitiva para os usuários editarem imagens com linguagem natural. No entanto, modelos de edição baseados em difusão frequentemente lutam para interpretar com precisão instruções complexas do usuário, especialmente aquelas envolvendo relações composicionais, pistas contextuais ou expressões de referência, levando a edições que se desviam semanticamente ou falham em refletir as alterações pretendidas. Enfrentamos este problema propondo o MIRA (Multimodal Iterative Reasoning Agent), um agente de raciocínio multimodal leve e *plug-and-play* que realiza a edição através de um ciclo iterativo de percepção-raciocínio-ação, simulando efetivamente processos de interação humano-modelo em múltiplos turnos. Em vez de emitir um único comando ou plano estático, o MIRA prevê instruções de edição atômica passo a passo, usando *feedback* visual para tomar suas decisões. O nosso conjunto de dados multimodal de 150K para uso de ferramentas, MIRA-Editing, combinado com um *pipeline* de treinamento em dois estágios (SFT + GRPO), permite ao MIRA realizar raciocínio e edição sobre instruções de edição complexas. Quando emparelhado com modelos de edição de imagem de código aberto, como Flux.1-Kontext, Step1X-Edit e Qwen-Image-Edit, o MIRA melhora significativamente tanto a consistência semântica quanto a qualidade perceptual, alcançando um desempenho comparável ou superior a sistemas proprietários como GPT-Image e Nano-Banana.

English

Instruction-guided image editing offers an intuitive way for users to edit images with natural language. However, diffusion-based editing models often struggle to accurately interpret complex user instructions, especially those involving compositional relationships, contextual cues, or referring expressions, leading to edits that drift semantically or fail to reflect the intended changes. We tackle this problem by proposing MIRA (Multimodal Iterative Reasoning Agent), a lightweight, plug-and-play multimodal reasoning agent that performs editing through an iterative perception-reasoning-action loop, effectively simulating multi-turn human-model interaction processes. Instead of issuing a single prompt or static plan, MIRA predicts atomic edit instructions step by step, using visual feedback to make its decisions. Our 150K multimodal tool-use dataset, MIRA-Editing, combined with a two-stage SFT + GRPO training pipeline, enables MIRA to perform reasoning and editing over complex editing instructions. When paired with open-source image editing models such as Flux.1-Kontext, Step1X-Edit, and Qwen-Image-Edit, MIRA significantly improves both semantic consistency and perceptual quality, achieving performance comparable to or exceeding proprietary systems such as GPT-Image and Nano-Banana.

MIRA: Agente de Raciocínio Iterativo Multimodal para Edição de Imagens

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

Resumo

Support