ChatPaper.aiChatPaper

Step1X-Edit: Практическая структура для универсального редактирования изображений

Step1X-Edit: A Practical Framework for General Image Editing

April 24, 2025
Авторы: Shiyu Liu, Yucheng Han, Peng Xing, Fukun Yin, Rui Wang, Wei Cheng, Jiaqi Liao, Yingming Wang, Honghao Fu, Chunrui Han, Guopeng Li, Yuang Peng, Quan Sun, Jingwei Wu, Yan Cai, Zheng Ge, Ranchen Ming, Lei Xia, Xianfang Zeng, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Gang Yu, Daxin Jiang
cs.AI

Аннотация

В последние годы модели редактирования изображений продемонстрировали впечатляющий и стремительный прогресс. Недавний анонс передовых мультимодальных моделей, таких как GPT-4o и Gemini2 Flash, представил чрезвычайно перспективные возможности редактирования изображений. Эти модели показывают впечатляющую способность удовлетворять подавляющее большинство пользовательских требований к редактированию, что знаменует собой значительный прорыв в области обработки изображений. Однако между открытыми алгоритмами и этими закрытыми моделями по-прежнему существует значительный разрыв. В связи с этим в данной статье мы представляем передовую модель редактирования изображений под названием Step1X-Edit, которая способна обеспечить сопоставимую производительность с закрытыми моделями, такими как GPT-4o и Gemini2 Flash. В частности, мы используем мультимодальную языковую модель (Multimodal LLM) для обработки исходного изображения и инструкций пользователя. Латентное представление извлекается и интегрируется с диффузионным декодером изображений для получения целевого изображения. Для обучения модели мы создали конвейер генерации данных, позволяющий создавать высококачественный набор данных. Для оценки разработан GEdit-Bench — новый эталонный тест, основанный на реальных пользовательских инструкциях. Результаты экспериментов на GEdit-Bench показывают, что Step1X-Edit значительно превосходит существующие открытые базовые модели и приближается к производительности ведущих проприетарных моделей, внося таким образом существенный вклад в область редактирования изображений.
English
In recent years, image editing models have witnessed remarkable and rapid development. The recent unveiling of cutting-edge multimodal models such as GPT-4o and Gemini2 Flash has introduced highly promising image editing capabilities. These models demonstrate an impressive aptitude for fulfilling a vast majority of user-driven editing requirements, marking a significant advancement in the field of image manipulation. However, there is still a large gap between the open-source algorithm with these closed-source models. Thus, in this paper, we aim to release a state-of-the-art image editing model, called Step1X-Edit, which can provide comparable performance against the closed-source models like GPT-4o and Gemini2 Flash. More specifically, we adopt the Multimodal LLM to process the reference image and the user's editing instruction. A latent embedding has been extracted and integrated with a diffusion image decoder to obtain the target image. To train the model, we build a data generation pipeline to produce a high-quality dataset. For evaluation, we develop the GEdit-Bench, a novel benchmark rooted in real-world user instructions. Experimental results on GEdit-Bench demonstrate that Step1X-Edit outperforms existing open-source baselines by a substantial margin and approaches the performance of leading proprietary models, thereby making significant contributions to the field of image editing.

Summary

AI-Generated Summary

PDF833April 25, 2025