Step1X-Edit: Un Framework Pratico per l'Editing Generale delle Immagini

Abstract

Negli ultimi anni, i modelli di editing di immagini hanno assistito a uno sviluppo notevole e rapido. Il recente lancio di modelli multimodali all'avanguardia come GPT-4o e Gemini2 Flash ha introdotto capacità di editing di immagini altamente promettenti. Questi modelli dimostrano un'impressionante attitudine a soddisfare la maggior parte delle esigenze di editing guidate dall'utente, segnando un significativo progresso nel campo della manipolazione delle immagini. Tuttavia, esiste ancora un ampio divario tra gli algoritmi open-source e questi modelli closed-source. Pertanto, in questo articolo, ci proponiamo di rilasciare un modello di editing di immagini all'avanguardia, chiamato Step1X-Edit, in grado di fornire prestazioni comparabili a quelle dei modelli closed-source come GPT-4o e Gemini2 Flash. Nello specifico, adottiamo un LLM multimodale per elaborare l'immagine di riferimento e le istruzioni di editing dell'utente. Un embedding latente viene estratto e integrato con un decoder di immagini basato su diffusione per ottenere l'immagine target. Per addestrare il modello, abbiamo costruito una pipeline di generazione dati per produrre un dataset di alta qualità. Per la valutazione, abbiamo sviluppato GEdit-Bench, un nuovo benchmark basato su istruzioni reali degli utenti. I risultati sperimentali su GEdit-Bench dimostrano che Step1X-Edit supera i baseline open-source esistenti con un margine sostanziale e si avvicina alle prestazioni dei principali modelli proprietari, contribuendo in modo significativo al campo dell'editing di immagini.

English

In recent years, image editing models have witnessed remarkable and rapid development. The recent unveiling of cutting-edge multimodal models such as GPT-4o and Gemini2 Flash has introduced highly promising image editing capabilities. These models demonstrate an impressive aptitude for fulfilling a vast majority of user-driven editing requirements, marking a significant advancement in the field of image manipulation. However, there is still a large gap between the open-source algorithm with these closed-source models. Thus, in this paper, we aim to release a state-of-the-art image editing model, called Step1X-Edit, which can provide comparable performance against the closed-source models like GPT-4o and Gemini2 Flash. More specifically, we adopt the Multimodal LLM to process the reference image and the user's editing instruction. A latent embedding has been extracted and integrated with a diffusion image decoder to obtain the target image. To train the model, we build a data generation pipeline to produce a high-quality dataset. For evaluation, we develop the GEdit-Bench, a novel benchmark rooted in real-world user instructions. Experimental results on GEdit-Bench demonstrate that Step1X-Edit outperforms existing open-source baselines by a substantial margin and approaches the performance of leading proprietary models, thereby making significant contributions to the field of image editing.

Step1X-Edit: Un Framework Pratico per l'Editing Generale delle Immagini

Step1X-Edit: A Practical Framework for General Image Editing

Abstract

Support