MIRA: 이미지 편집을 위한 멀티모달 반복 추론 에이전트
MIRA: Multimodal Iterative Reasoning Agent for Image Editing
November 26, 2025
저자: Ziyun Zeng, Hang Hua, Jiebo Luo
cs.AI
초록
지시어 기반 이미지 편집은 사용자가 자연어를 통해 이미지를 직관적으로 편집할 수 있는 방법을 제공합니다. 그러나 확산 모델 기반 편집 모델들은 복잡한 사용자 지시어, 특히 구성적 관계, 맥락적 단서 또는 지시 표현을 포함하는 지시어를 정확히 해석하는 데 어려움을 겪어, 의미론적으로 이탈되거나 의도된 변경 사항을 제대로 반영하지 못하는 편집 결과가 발생합니다. 본 연구에서는 이러한 문제를 해결하기 위해 MIRA(Multimodal Iterative Reasoning Agent)를 제안합니다. MIRA는 경량화된 플러그 앤 플레이 방식의 다중모달 추론 에이전트로, 반복적인 인지-추론-실행 루프를 통해 편집을 수행하며 다중 턴 인간-모델 상호작용 과정을 효과적으로 모방합니다. MIRA는 단일 프롬프트나 정적 계획을 제공하는 대신, 시각적 피드백을 활용하여 단계별로 원자적 편집 지시어를 예측하는 방식으로 결정을 내립니다. 150K 규모의 다중모달 도구 사용 데이터셋인 MIRA-Editing과 2단계 SFT + GRPO 학습 파이프라인을 결합함으로써 MIRA는 복잡한 편집 지시어에 대한 추론 및 편집을 수행할 수 있습니다. Flux.1-Kontext, Step1X-Edit, Qwen-Image-Edit과 같은 오픈소스 이미지 편집 모델과 연동 시, MIRA는 의미적 일관성과 지각적 품질을 모두 크게 향상시켜 GPT-Image나 Nano-Banana와 같은 독점 시스템에 버금가거나 이를 넘어서는 성능을 달성합니다.
English
Instruction-guided image editing offers an intuitive way for users to edit images with natural language. However, diffusion-based editing models often struggle to accurately interpret complex user instructions, especially those involving compositional relationships, contextual cues, or referring expressions, leading to edits that drift semantically or fail to reflect the intended changes. We tackle this problem by proposing MIRA (Multimodal Iterative Reasoning Agent), a lightweight, plug-and-play multimodal reasoning agent that performs editing through an iterative perception-reasoning-action loop, effectively simulating multi-turn human-model interaction processes. Instead of issuing a single prompt or static plan, MIRA predicts atomic edit instructions step by step, using visual feedback to make its decisions. Our 150K multimodal tool-use dataset, MIRA-Editing, combined with a two-stage SFT + GRPO training pipeline, enables MIRA to perform reasoning and editing over complex editing instructions. When paired with open-source image editing models such as Flux.1-Kontext, Step1X-Edit, and Qwen-Image-Edit, MIRA significantly improves both semantic consistency and perceptual quality, achieving performance comparable to or exceeding proprietary systems such as GPT-Image and Nano-Banana.