MIGE: Унифицированная платформа для мультимодальной генерации и редактирования изображений на основе инструкций

Аннотация

Несмотря на значительный прогресс в генерации изображений на основе диффузии, задачи, связанные с генерацией на основе объекта и редактированием по инструкциям, остаются сложными. Существующие методы обычно рассматривают их отдельно, сталкиваясь с ограниченным количеством высококачественных данных и плохой обобщаемостью. Однако обе задачи требуют учета сложных визуальных вариаций при сохранении согласованности между входными и выходными данными. Поэтому мы предлагаем MIGE — унифицированную структуру, которая стандартизирует представление задач с использованием мультимодальных инструкций. Она рассматривает генерацию на основе объекта как создание на чистом холсте, а редактирование по инструкциям — как модификацию существующего изображения, устанавливая общую формулировку "вход-выход". MIGE представляет новый мультимодальный кодировщик, который отображает свободные мультимодальные инструкции в единое визуально-языковое пространство, интегрируя визуальные и семантические признаки через механизм слияния признаков. Эта унификация позволяет совместное обучение для обеих задач, предоставляя два ключевых преимущества: (1) Улучшение за счет кросс-задачности: Используя общие визуальные и семантические представления, совместное обучение повышает соответствие инструкциям и визуальную согласованность как в генерации на основе объекта, так и в редактировании по инструкциям. (2) Обобщаемость: Обучение в унифицированном формате способствует переносу знаний между задачами, позволяя MIGE обобщать на новые композиционные задачи, включая редактирование на основе объекта по инструкциям. Эксперименты показывают, что MIGE превосходит в генерации на основе объекта и редактировании по инструкциям, устанавливая новый стандарт в новой задаче редактирования на основе объекта по инструкциям. Код и модель доступны по адресу: https://github.com/Eureka-Maggie/MIGE.

English

Despite significant progress in diffusion-based image generation, subject-driven generation and instruction-based editing remain challenging. Existing methods typically treat them separately, struggling with limited high-quality data and poor generalization. However, both tasks require capturing complex visual variations while maintaining consistency between inputs and outputs. Therefore, we propose MIGE, a unified framework that standardizes task representations using multimodal instructions. It treats subject-driven generation as creation on a blank canvas and instruction-based editing as modification of an existing image, establishing a shared input-output formulation. MIGE introduces a novel multimodal encoder that maps free-form multimodal instructions into a unified vision-language space, integrating visual and semantic features through a feature fusion mechanism.This unification enables joint training of both tasks, providing two key advantages: (1) Cross-Task Enhancement: By leveraging shared visual and semantic representations, joint training improves instruction adherence and visual consistency in both subject-driven generation and instruction-based editing. (2) Generalization: Learning in a unified format facilitates cross-task knowledge transfer, enabling MIGE to generalize to novel compositional tasks, including instruction-based subject-driven editing. Experiments show that MIGE excels in both subject-driven generation and instruction-based editing while setting a state-of-the-art in the new task of instruction-based subject-driven editing. Code and model have been publicly available at https://github.com/Eureka-Maggie/MIGE.

MIGE: Унифицированная платформа для мультимодальной генерации и редактирования изображений на основе инструкций

MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing

Аннотация

Support