Step1X-Edit: Un Framework Pratico per l'Editing Generale delle Immagini
Step1X-Edit: A Practical Framework for General Image Editing
April 24, 2025
Autori: Shiyu Liu, Yucheng Han, Peng Xing, Fukun Yin, Rui Wang, Wei Cheng, Jiaqi Liao, Yingming Wang, Honghao Fu, Chunrui Han, Guopeng Li, Yuang Peng, Quan Sun, Jingwei Wu, Yan Cai, Zheng Ge, Ranchen Ming, Lei Xia, Xianfang Zeng, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Gang Yu, Daxin Jiang
cs.AI
Abstract
Negli ultimi anni, i modelli di editing di immagini hanno assistito a uno sviluppo notevole e rapido. Il recente lancio di modelli multimodali all'avanguardia come GPT-4o e Gemini2 Flash ha introdotto capacità di editing di immagini altamente promettenti. Questi modelli dimostrano un'impressionante attitudine a soddisfare la maggior parte delle esigenze di editing guidate dall'utente, segnando un significativo progresso nel campo della manipolazione delle immagini. Tuttavia, esiste ancora un ampio divario tra gli algoritmi open-source e questi modelli closed-source. Pertanto, in questo articolo, ci proponiamo di rilasciare un modello di editing di immagini all'avanguardia, chiamato Step1X-Edit, in grado di fornire prestazioni comparabili a quelle dei modelli closed-source come GPT-4o e Gemini2 Flash. Nello specifico, adottiamo un LLM multimodale per elaborare l'immagine di riferimento e le istruzioni di editing dell'utente. Un embedding latente viene estratto e integrato con un decoder di immagini basato su diffusione per ottenere l'immagine target. Per addestrare il modello, abbiamo costruito una pipeline di generazione dati per produrre un dataset di alta qualità. Per la valutazione, abbiamo sviluppato GEdit-Bench, un nuovo benchmark basato su istruzioni reali degli utenti. I risultati sperimentali su GEdit-Bench dimostrano che Step1X-Edit supera i baseline open-source esistenti con un margine sostanziale e si avvicina alle prestazioni dei principali modelli proprietari, contribuendo in modo significativo al campo dell'editing di immagini.
English
In recent years, image editing models have witnessed remarkable and rapid
development. The recent unveiling of cutting-edge multimodal models such as
GPT-4o and Gemini2 Flash has introduced highly promising image editing
capabilities. These models demonstrate an impressive aptitude for fulfilling a
vast majority of user-driven editing requirements, marking a significant
advancement in the field of image manipulation. However, there is still a large
gap between the open-source algorithm with these closed-source models. Thus, in
this paper, we aim to release a state-of-the-art image editing model, called
Step1X-Edit, which can provide comparable performance against the closed-source
models like GPT-4o and Gemini2 Flash. More specifically, we adopt the
Multimodal LLM to process the reference image and the user's editing
instruction. A latent embedding has been extracted and integrated with a
diffusion image decoder to obtain the target image. To train the model, we
build a data generation pipeline to produce a high-quality dataset. For
evaluation, we develop the GEdit-Bench, a novel benchmark rooted in real-world
user instructions. Experimental results on GEdit-Bench demonstrate that
Step1X-Edit outperforms existing open-source baselines by a substantial margin
and approaches the performance of leading proprietary models, thereby making
significant contributions to the field of image editing.Summary
AI-Generated Summary