MIRA: Multimodaler Agent für iteratives Reasoning zur Bildbearbeitung
MIRA: Multimodal Iterative Reasoning Agent for Image Editing
November 26, 2025
papers.authors: Ziyun Zeng, Hang Hua, Jiebo Luo
cs.AI
papers.abstract
Instruktionsgesteuerte Bildbearbeitung bietet Nutzern eine intuitive Möglichkeit, Bilder mit natürlicher Sprache zu bearbeiten. Allerdings haben diffusionsbasierte Bearbeitungsmodelle oft Schwierigkeiten, komplexe Benutzeranweisungen – insbesondere solche mit kompositionellen Beziehungen, kontextuellen Hinweisen oder Referenzausdrücken – präzise zu interpretieren, was zu semantisch abweichenden Bearbeitungen führt, die die beabsichtigten Änderungen nicht korrekt widerspiegeln. Wir lösen dieses Problem mit MIRA (Multimodal Iterative Reasoning Agent), einem schlanken, plug-and-play-fähigen multimodalen Reasoning-Agenten, der Bearbeitungen durch eine iterative Wahrnehmungs-Reasoning-Handlungs-Schleife durchführt und so Mehrfachinteraktionen zwischen Mensch und Modell effektiv simuliert. Anstatt einen einzelnen Befehl oder statischen Plan auszugeben, sagt MIRA schrittweise atomare Bearbeitungsanweisungen vorher und nutzt visuelles Feedback für seine Entscheidungen. Unser multimodaler Tool-Use-Datensatz MIRA-Editing mit 150.000 Einträgen, kombiniert mit einer zweistufigen SFT+GRPO-Trainingspipeline, ermöglicht es MIRA, Reasoning und Bearbeitung auch bei komplexen Anweisungen durchzuführen. In Kombination mit quelloffenen Bildbearbeitungsmodellen wie Flux.1-Kontext, Step1X-Edit und Qwen-Image-Edit verbessert MIRA sowohl die semantische Konsistenz als auch die perzeptuelle Qualität signifikant und erreicht eine Leistung, die mit proprietären Systemen wie GPT-Image und Nano-Banana vergleichbar oder diesen überlegen ist.
English
Instruction-guided image editing offers an intuitive way for users to edit images with natural language. However, diffusion-based editing models often struggle to accurately interpret complex user instructions, especially those involving compositional relationships, contextual cues, or referring expressions, leading to edits that drift semantically or fail to reflect the intended changes. We tackle this problem by proposing MIRA (Multimodal Iterative Reasoning Agent), a lightweight, plug-and-play multimodal reasoning agent that performs editing through an iterative perception-reasoning-action loop, effectively simulating multi-turn human-model interaction processes. Instead of issuing a single prompt or static plan, MIRA predicts atomic edit instructions step by step, using visual feedback to make its decisions. Our 150K multimodal tool-use dataset, MIRA-Editing, combined with a two-stage SFT + GRPO training pipeline, enables MIRA to perform reasoning and editing over complex editing instructions. When paired with open-source image editing models such as Flux.1-Kontext, Step1X-Edit, and Qwen-Image-Edit, MIRA significantly improves both semantic consistency and perceptual quality, achieving performance comparable to or exceeding proprietary systems such as GPT-Image and Nano-Banana.