ChatPaper.aiChatPaper

MIRA: Agente di Ragionamento Iterativo Multimodale per l'Editing di Immagini

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

November 26, 2025
Autori: Ziyun Zeng, Hang Hua, Jiebo Luo
cs.AI

Abstract

L'editing di immagini guidato da istruzioni offre un modo intuitivo per modificare le immagini con linguaggio naturale. Tuttavia, i modelli di editing basati su diffusione spesso faticano a interpretare accuratamente istruzioni complesse, specialmente quelle che coinvolgono relazioni compositive, segnali contestuali o espressioni referenziali, portando a modifiche che scostano semanticamente o non riflettono i cambiamenti desiderati. Affrontiamo questo problema proponendo MIRA (Multimodal Iterative Reasoning Agent), un agente di ragionamento multimodale leggero e plug-and-play che esegue l'editing attraverso un ciclo iterativo percezione-ragionamento-azione, simulando efficacemente i processi di interazione umano-modello multiturbo. Invece di emettere un singolo prompt o piano statico, MIRA predice istruzioni di modifica atomiche passo dopo passo, utilizzando il feedback visivo per prendere decisioni. Il nostro dataset multimodale di 150K per l'uso di strumenti, MIRA-Editing, combinato con una pipeline di addestramento in due fasi SFT + GRPO, consente a MIRA di eseguire ragionamento e editing su istruzioni complesse. Se accoppiato con modelli di editing open-source come Flux.1-Kontext, Step1X-Edit e Qwen-Image-Edit, MIRA migliora significativamente sia la consistenza semantica che la qualità percettiva, raggiungendo prestazioni paragonabili o superiori a sistemi proprietari come GPT-Image e Nano-Banana.
English
Instruction-guided image editing offers an intuitive way for users to edit images with natural language. However, diffusion-based editing models often struggle to accurately interpret complex user instructions, especially those involving compositional relationships, contextual cues, or referring expressions, leading to edits that drift semantically or fail to reflect the intended changes. We tackle this problem by proposing MIRA (Multimodal Iterative Reasoning Agent), a lightweight, plug-and-play multimodal reasoning agent that performs editing through an iterative perception-reasoning-action loop, effectively simulating multi-turn human-model interaction processes. Instead of issuing a single prompt or static plan, MIRA predicts atomic edit instructions step by step, using visual feedback to make its decisions. Our 150K multimodal tool-use dataset, MIRA-Editing, combined with a two-stage SFT + GRPO training pipeline, enables MIRA to perform reasoning and editing over complex editing instructions. When paired with open-source image editing models such as Flux.1-Kontext, Step1X-Edit, and Qwen-Image-Edit, MIRA significantly improves both semantic consistency and perceptual quality, achieving performance comparable to or exceeding proprietary systems such as GPT-Image and Nano-Banana.
PDF92December 1, 2025