ChatPaper.aiChatPaper

MIRA: Мультимодальный агент итеративного рассуждения для редактирования изображений

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

November 26, 2025
Авторы: Ziyun Zeng, Hang Hua, Jiebo Luo
cs.AI

Аннотация

Редактирование изображений по инструкциям предоставляет пользователям интуитивно понятный способ редактирования изображений с помощью естественного языка. Однако диффузионные модели редактирования часто не могут точно интерпретировать сложные пользовательские инструкции, особенно включающие композиционные отношения, контекстные подсказки или референциальные выражения, что приводит к семантическим отклонениям или несоответствию ожидаемым изменениям. Для решения этой проблемы мы предлагаем MIRA (Multimodal Iterative Reasoning Agent) — легковесный подключаемый мультимодальный агент рассуждений, который выполняет редактирование через итеративный цикл «восприятие-рассуждение-действие», эффективно моделируя процессы многошагового взаимодействия человека и модели. Вместо единого запроса или статичного плана MIRA предсказывает атомарные инструкции редактирования шаг за шагом, используя визуальную обратную связь для принятия решений. Наш мультимодальный набор данных MIRA-Editing объемом 150K примеров, combined с двухэтапным пайплайном обучения SFT + GRPO, позволяет MIRA выполнять рассуждения и редактирование для сложных инструкций. При интеграции с открытыми моделями редактирования изображений, такими как Flux.1-Kontext, Step1X-Edit и Qwen-Image-Edit, MIRA значительно улучшает как семантическую согласованность, так и перцептивное качество, достигая результатов, сопоставимых или превосходящих проприетарные системы, такие как GPT-Image и Nano-Banana.
English
Instruction-guided image editing offers an intuitive way for users to edit images with natural language. However, diffusion-based editing models often struggle to accurately interpret complex user instructions, especially those involving compositional relationships, contextual cues, or referring expressions, leading to edits that drift semantically or fail to reflect the intended changes. We tackle this problem by proposing MIRA (Multimodal Iterative Reasoning Agent), a lightweight, plug-and-play multimodal reasoning agent that performs editing through an iterative perception-reasoning-action loop, effectively simulating multi-turn human-model interaction processes. Instead of issuing a single prompt or static plan, MIRA predicts atomic edit instructions step by step, using visual feedback to make its decisions. Our 150K multimodal tool-use dataset, MIRA-Editing, combined with a two-stage SFT + GRPO training pipeline, enables MIRA to perform reasoning and editing over complex editing instructions. When paired with open-source image editing models such as Flux.1-Kontext, Step1X-Edit, and Qwen-Image-Edit, MIRA significantly improves both semantic consistency and perceptual quality, achieving performance comparable to or exceeding proprietary systems such as GPT-Image and Nano-Banana.
PDF92December 1, 2025