MultiEdit: Прогресс в редактировании изображений на основе инструкций для разнообразных и сложных задач
MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks
September 18, 2025
Авторы: Mingsong Li, Lin Liu, Hongjun Wang, Haoxing Chen, Xijun Gu, Shizhan Liu, Dong Gong, Junbo Zhao, Zhenzhong Lan, Jianguo Li
cs.AI
Аннотация
Современные методы редактирования изображений на основе инструкций (IBIE) сталкиваются с трудностями при выполнении сложных задач редактирования, поскольку как типы редактирования, так и количество образцов в существующих наборах данных ограничены. Более того, традиционное создание наборов данных часто включает зашумленные пары изображение-описание, что может вносить предвзятость и ограничивать возможности моделей в сложных сценариях редактирования. Чтобы устранить эти ограничения, мы представляем MultiEdit — всеобъемлющий набор данных, содержащий более 107 тысяч высококачественных образцов редактирования изображений. Он охватывает 6 сложных задач редактирования через разнообразную коллекцию из 18 типов редактирования, не связанных с переносом стиля, и 38 операций переноса стиля, охватывая спектр от изощренного переноса стиля до сложных семантических операций, таких как редактирование с учетом персонажей и редактирование текста внутри изображения. Мы используем инновационный процесс создания набора данных, который задействует две мультимодальные большие языковые модели (MLLM) для генерации визуально-адаптивных инструкций редактирования и создания высококачественных отредактированных изображений соответственно. Многочисленные эксперименты показывают, что тонкая настройка базовых открытых моделей с использованием нашего набора MultiEdit-Train значительно улучшает производительность моделей на сложных задачах редактирования в предложенном нами тестовом наборе MultiEdit-Test, при этом эффективно сохраняя их возможности на стандартном тестовом наборе. Мы считаем, что MultiEdit предоставляет ценный ресурс для продвижения исследований в области более разнообразных и сложных возможностей IBIE. Наш набор данных доступен по адресу https://huggingface.co/datasets/inclusionAI/MultiEdit.
English
Current instruction-based image editing (IBIE) methods struggle with
challenging editing tasks, as both editing types and sample counts of existing
datasets are limited. Moreover, traditional dataset construction often contains
noisy image-caption pairs, which may introduce biases and limit model
capabilities in complex editing scenarios. To address these limitations, we
introduce MultiEdit, a comprehensive dataset featuring over 107K high-quality
image editing samples. It encompasses 6 challenging editing tasks through a
diverse collection of 18 non-style-transfer editing types and 38 style transfer
operations, covering a spectrum from sophisticated style transfer to complex
semantic operations like person reference editing and in-image text editing. We
employ a novel dataset construction pipeline that utilizes two multi-modal
large language models (MLLMs) to generate visual-adaptive editing instructions
and produce high-fidelity edited images, respectively. Extensive experiments
demonstrate that fine-tuning foundational open-source models with our
MultiEdit-Train set substantially improves models' performance on sophisticated
editing tasks in our proposed MultiEdit-Test benchmark, while effectively
preserving their capabilities on the standard editing benchmark. We believe
MultiEdit provides a valuable resource for advancing research into more diverse
and challenging IBIE capabilities. Our dataset is available at
https://huggingface.co/datasets/inclusionAI/MultiEdit.