Step1X-Edit: Um Framework Prático para Edição Geral de Imagens
Step1X-Edit: A Practical Framework for General Image Editing
April 24, 2025
Autores: Shiyu Liu, Yucheng Han, Peng Xing, Fukun Yin, Rui Wang, Wei Cheng, Jiaqi Liao, Yingming Wang, Honghao Fu, Chunrui Han, Guopeng Li, Yuang Peng, Quan Sun, Jingwei Wu, Yan Cai, Zheng Ge, Ranchen Ming, Lei Xia, Xianfang Zeng, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Gang Yu, Daxin Jiang
cs.AI
Resumo
Nos últimos anos, os modelos de edição de imagem têm testemunhado um desenvolvimento notável e rápido. O recente lançamento de modelos multimodais de ponta, como o GPT-4o e o Gemini2 Flash, introduziu capacidades de edição de imagem altamente promissoras. Esses modelos demonstram uma aptidão impressionante para atender à grande maioria das necessidades de edição orientadas pelo usuário, marcando um avanço significativo no campo da manipulação de imagens. No entanto, ainda existe uma grande lacuna entre os algoritmos de código aberto e esses modelos proprietários. Assim, neste artigo, nosso objetivo é lançar um modelo de edição de imagem de última geração, chamado Step1X-Edit, que pode oferecer desempenho comparável aos modelos proprietários como o GPT-4o e o Gemini2 Flash. Mais especificamente, adotamos o Multimodal LLM para processar a imagem de referência e a instrução de edição do usuário. Um embedding latente foi extraído e integrado a um decodificador de imagem baseado em difusão para obter a imagem desejada. Para treinar o modelo, construímos um pipeline de geração de dados para produzir um conjunto de dados de alta qualidade. Para avaliação, desenvolvemos o GEdit-Bench, um novo benchmark baseado em instruções reais de usuários. Os resultados experimentais no GEdit-Bench demonstram que o Step1X-Edit supera as bases de código aberto existentes por uma margem substancial e se aproxima do desempenho dos principais modelos proprietários, contribuindo significativamente para o campo da edição de imagem.
English
In recent years, image editing models have witnessed remarkable and rapid
development. The recent unveiling of cutting-edge multimodal models such as
GPT-4o and Gemini2 Flash has introduced highly promising image editing
capabilities. These models demonstrate an impressive aptitude for fulfilling a
vast majority of user-driven editing requirements, marking a significant
advancement in the field of image manipulation. However, there is still a large
gap between the open-source algorithm with these closed-source models. Thus, in
this paper, we aim to release a state-of-the-art image editing model, called
Step1X-Edit, which can provide comparable performance against the closed-source
models like GPT-4o and Gemini2 Flash. More specifically, we adopt the
Multimodal LLM to process the reference image and the user's editing
instruction. A latent embedding has been extracted and integrated with a
diffusion image decoder to obtain the target image. To train the model, we
build a data generation pipeline to produce a high-quality dataset. For
evaluation, we develop the GEdit-Bench, a novel benchmark rooted in real-world
user instructions. Experimental results on GEdit-Bench demonstrate that
Step1X-Edit outperforms existing open-source baselines by a substantial margin
and approaches the performance of leading proprietary models, thereby making
significant contributions to the field of image editing.Summary
AI-Generated Summary