MIRA: Multimodale Iteratieve Redeneeragent voor Beeldbewerking
MIRA: Multimodal Iterative Reasoning Agent for Image Editing
November 26, 2025
Auteurs: Ziyun Zeng, Hang Hua, Jiebo Luo
cs.AI
Samenvatting
Instructiegestuurd beeldbewerking biedt gebruikers een intuïtieve manier om afbeeldingen te bewerken met natuurlijke taal. Op diffusie gebaseerde bewerkingsmodellen hebben echter vaak moeite om complexe gebruikersinstructies nauwkeurig te interpreteren, vooral wanneer deze compositionele relaties, contextuele aanwijzingen of verwijzende uitdrukkingen bevatten. Dit leidt tot bewerkingen die semantisch afdrijven of de beoogde veranderingen niet weerspiegelen. Wij pakken dit probleem aan door MIRA (Multimodal Iterative Reasoning Agent) voor te stellen, een lichtgewicht, plug-and-play multimodaal redeneeragent die bewerkingen uitvoert via een iteratieve perceptie-redenering-actie-lus, waardoor interactieprocessen tussen mens en model in meerdere stappen effectief worden gesimuleerd. In plaats van een enkele prompt of een statisch plan uit te voeren, voorspelt MIRA stapsgewijs atomische bewerkinstructies en gebruikt het visuele feedback om zijn beslissingen te nemen. Onze 150K multimodale tool-use dataset, MIRA-Editing, gecombineerd met een tweefasen SFT + GRPO-trainingspijplijn, stelt MIRA in staat om te redeneren en te bewerken op basis van complexe bewerkinstructies. Wanneer MIRA wordt gekoppeld aan open-source beeldbewerkingsmodellen zoals Flux.1-Kontext, Step1X-Edit en Qwen-Image-Edit, verbetert het zowel de semantische consistentie als de perceptuele kwaliteit aanzienlijk, waarbij de prestaties vergelijkbaar zijn met of zelfs beter zijn dan die van propriëtaire systemen zoals GPT-Image en Nano-Banana.
English
Instruction-guided image editing offers an intuitive way for users to edit images with natural language. However, diffusion-based editing models often struggle to accurately interpret complex user instructions, especially those involving compositional relationships, contextual cues, or referring expressions, leading to edits that drift semantically or fail to reflect the intended changes. We tackle this problem by proposing MIRA (Multimodal Iterative Reasoning Agent), a lightweight, plug-and-play multimodal reasoning agent that performs editing through an iterative perception-reasoning-action loop, effectively simulating multi-turn human-model interaction processes. Instead of issuing a single prompt or static plan, MIRA predicts atomic edit instructions step by step, using visual feedback to make its decisions. Our 150K multimodal tool-use dataset, MIRA-Editing, combined with a two-stage SFT + GRPO training pipeline, enables MIRA to perform reasoning and editing over complex editing instructions. When paired with open-source image editing models such as Flux.1-Kontext, Step1X-Edit, and Qwen-Image-Edit, MIRA significantly improves both semantic consistency and perceptual quality, achieving performance comparable to or exceeding proprietary systems such as GPT-Image and Nano-Banana.