MIGE: Унифицированная платформа для мультимодальной генерации и редактирования изображений на основе инструкций
MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing
February 28, 2025
Авторы: Xueyun Tian, Wei Li, Bingbing Xu, Yige Yuan, Yuanzhuo Wang, Huawei Shen
cs.AI
Аннотация
Несмотря на значительный прогресс в генерации изображений на основе диффузии, задачи, связанные с генерацией на основе объекта и редактированием по инструкциям, остаются сложными. Существующие методы обычно рассматривают их отдельно, сталкиваясь с ограниченным количеством высококачественных данных и плохой обобщаемостью. Однако обе задачи требуют учета сложных визуальных вариаций при сохранении согласованности между входными и выходными данными. Поэтому мы предлагаем MIGE — унифицированную структуру, которая стандартизирует представление задач с использованием мультимодальных инструкций. Она рассматривает генерацию на основе объекта как создание на чистом холсте, а редактирование по инструкциям — как модификацию существующего изображения, устанавливая общую формулировку "вход-выход". MIGE представляет новый мультимодальный кодировщик, который отображает свободные мультимодальные инструкции в единое визуально-языковое пространство, интегрируя визуальные и семантические признаки через механизм слияния признаков. Эта унификация позволяет совместное обучение для обеих задач, предоставляя два ключевых преимущества: (1) Улучшение за счет кросс-задачности: Используя общие визуальные и семантические представления, совместное обучение повышает соответствие инструкциям и визуальную согласованность как в генерации на основе объекта, так и в редактировании по инструкциям. (2) Обобщаемость: Обучение в унифицированном формате способствует переносу знаний между задачами, позволяя MIGE обобщать на новые композиционные задачи, включая редактирование на основе объекта по инструкциям. Эксперименты показывают, что MIGE превосходит в генерации на основе объекта и редактировании по инструкциям, устанавливая новый стандарт в новой задаче редактирования на основе объекта по инструкциям. Код и модель доступны по адресу: https://github.com/Eureka-Maggie/MIGE.
English
Despite significant progress in diffusion-based image generation,
subject-driven generation and instruction-based editing remain challenging.
Existing methods typically treat them separately, struggling with limited
high-quality data and poor generalization. However, both tasks require
capturing complex visual variations while maintaining consistency between
inputs and outputs. Therefore, we propose MIGE, a unified framework that
standardizes task representations using multimodal instructions. It treats
subject-driven generation as creation on a blank canvas and instruction-based
editing as modification of an existing image, establishing a shared
input-output formulation. MIGE introduces a novel multimodal encoder that maps
free-form multimodal instructions into a unified vision-language space,
integrating visual and semantic features through a feature fusion
mechanism.This unification enables joint training of both tasks, providing two
key advantages: (1) Cross-Task Enhancement: By leveraging shared visual and
semantic representations, joint training improves instruction adherence and
visual consistency in both subject-driven generation and instruction-based
editing. (2) Generalization: Learning in a unified format facilitates
cross-task knowledge transfer, enabling MIGE to generalize to novel
compositional tasks, including instruction-based subject-driven editing.
Experiments show that MIGE excels in both subject-driven generation and
instruction-based editing while setting a state-of-the-art in the new task of
instruction-based subject-driven editing. Code and model have been publicly
available at https://github.com/Eureka-Maggie/MIGE.Summary
AI-Generated Summary