Step1X-Edit: Un Marco Práctico para la Edición General de Imágenes
Step1X-Edit: A Practical Framework for General Image Editing
April 24, 2025
Autores: Shiyu Liu, Yucheng Han, Peng Xing, Fukun Yin, Rui Wang, Wei Cheng, Jiaqi Liao, Yingming Wang, Honghao Fu, Chunrui Han, Guopeng Li, Yuang Peng, Quan Sun, Jingwei Wu, Yan Cai, Zheng Ge, Ranchen Ming, Lei Xia, Xianfang Zeng, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Gang Yu, Daxin Jiang
cs.AI
Resumen
En los últimos años, los modelos de edición de imágenes han experimentado un desarrollo notable y rápido. El reciente lanzamiento de modelos multimodales de vanguardia, como GPT-4o y Gemini2 Flash, ha introducido capacidades de edición de imágenes altamente prometedoras. Estos modelos demuestran una aptitud impresionante para satisfacer la gran mayoría de los requisitos de edición impulsados por el usuario, lo que marca un avance significativo en el campo de la manipulación de imágenes. Sin embargo, aún existe una gran brecha entre los algoritmos de código abierto y estos modelos de código cerrado. Por lo tanto, en este artículo, nuestro objetivo es lanzar un modelo de edición de imágenes de última generación, llamado Step1X-Edit, que pueda ofrecer un rendimiento comparable al de los modelos de código cerrado como GPT-4o y Gemini2 Flash. Más específicamente, adoptamos el modelo de lenguaje multimodal (Multimodal LLM) para procesar la imagen de referencia y la instrucción de edición del usuario. Se ha extraído un embedding latente y se ha integrado con un decodificador de imágenes basado en difusión para obtener la imagen objetivo. Para entrenar el modelo, construimos una pipeline de generación de datos para producir un conjunto de datos de alta calidad. Para la evaluación, desarrollamos GEdit-Bench, un nuevo benchmark basado en instrucciones de usuarios del mundo real. Los resultados experimentales en GEdit-Bench demuestran que Step1X-Edit supera a los baselines de código abierto existentes por un margen considerable y se acerca al rendimiento de los modelos propietarios líderes, contribuyendo así significativamente al campo de la edición de imágenes.
English
In recent years, image editing models have witnessed remarkable and rapid
development. The recent unveiling of cutting-edge multimodal models such as
GPT-4o and Gemini2 Flash has introduced highly promising image editing
capabilities. These models demonstrate an impressive aptitude for fulfilling a
vast majority of user-driven editing requirements, marking a significant
advancement in the field of image manipulation. However, there is still a large
gap between the open-source algorithm with these closed-source models. Thus, in
this paper, we aim to release a state-of-the-art image editing model, called
Step1X-Edit, which can provide comparable performance against the closed-source
models like GPT-4o and Gemini2 Flash. More specifically, we adopt the
Multimodal LLM to process the reference image and the user's editing
instruction. A latent embedding has been extracted and integrated with a
diffusion image decoder to obtain the target image. To train the model, we
build a data generation pipeline to produce a high-quality dataset. For
evaluation, we develop the GEdit-Bench, a novel benchmark rooted in real-world
user instructions. Experimental results on GEdit-Bench demonstrate that
Step1X-Edit outperforms existing open-source baselines by a substantial margin
and approaches the performance of leading proprietary models, thereby making
significant contributions to the field of image editing.Summary
AI-Generated Summary