Step1X-Edit: Практическая структура для универсального редактирования изображений

Аннотация

В последние годы модели редактирования изображений продемонстрировали впечатляющий и стремительный прогресс. Недавний анонс передовых мультимодальных моделей, таких как GPT-4o и Gemini2 Flash, представил чрезвычайно перспективные возможности редактирования изображений. Эти модели показывают впечатляющую способность удовлетворять подавляющее большинство пользовательских требований к редактированию, что знаменует собой значительный прорыв в области обработки изображений. Однако между открытыми алгоритмами и этими закрытыми моделями по-прежнему существует значительный разрыв. В связи с этим в данной статье мы представляем передовую модель редактирования изображений под названием Step1X-Edit, которая способна обеспечить сопоставимую производительность с закрытыми моделями, такими как GPT-4o и Gemini2 Flash. В частности, мы используем мультимодальную языковую модель (Multimodal LLM) для обработки исходного изображения и инструкций пользователя. Латентное представление извлекается и интегрируется с диффузионным декодером изображений для получения целевого изображения. Для обучения модели мы создали конвейер генерации данных, позволяющий создавать высококачественный набор данных. Для оценки разработан GEdit-Bench — новый эталонный тест, основанный на реальных пользовательских инструкциях. Результаты экспериментов на GEdit-Bench показывают, что Step1X-Edit значительно превосходит существующие открытые базовые модели и приближается к производительности ведущих проприетарных моделей, внося таким образом существенный вклад в область редактирования изображений.

English

In recent years, image editing models have witnessed remarkable and rapid development. The recent unveiling of cutting-edge multimodal models such as GPT-4o and Gemini2 Flash has introduced highly promising image editing capabilities. These models demonstrate an impressive aptitude for fulfilling a vast majority of user-driven editing requirements, marking a significant advancement in the field of image manipulation. However, there is still a large gap between the open-source algorithm with these closed-source models. Thus, in this paper, we aim to release a state-of-the-art image editing model, called Step1X-Edit, which can provide comparable performance against the closed-source models like GPT-4o and Gemini2 Flash. More specifically, we adopt the Multimodal LLM to process the reference image and the user's editing instruction. A latent embedding has been extracted and integrated with a diffusion image decoder to obtain the target image. To train the model, we build a data generation pipeline to produce a high-quality dataset. For evaluation, we develop the GEdit-Bench, a novel benchmark rooted in real-world user instructions. Experimental results on GEdit-Bench demonstrate that Step1X-Edit outperforms existing open-source baselines by a substantial margin and approaches the performance of leading proprietary models, thereby making significant contributions to the field of image editing.

Step1X-Edit: Практическая структура для универсального редактирования изображений

Step1X-Edit: A Practical Framework for General Image Editing

Аннотация

Support