ChatPaper.aiChatPaper

Step1X-Edit: 일반적인 이미지 편집을 위한 실용적인 프레임워크

Step1X-Edit: A Practical Framework for General Image Editing

April 24, 2025
저자: Shiyu Liu, Yucheng Han, Peng Xing, Fukun Yin, Rui Wang, Wei Cheng, Jiaqi Liao, Yingming Wang, Honghao Fu, Chunrui Han, Guopeng Li, Yuang Peng, Quan Sun, Jingwei Wu, Yan Cai, Zheng Ge, Ranchen Ming, Lei Xia, Xianfang Zeng, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Gang Yu, Daxin Jiang
cs.AI

초록

최근 몇 년 동안 이미지 편집 모델은 놀라울 정도로 빠른 발전을 이루어 왔습니다. GPT-4o와 Gemini2 Flash와 같은 최첨단 멀티모달 모델의 공개는 매우 유망한 이미지 편집 기능을 선보였습니다. 이러한 모델들은 사용자 주도의 편집 요구 사항을 충족시키는 데 있어 인상적인 능력을 보여주며, 이미지 조작 분야에서 중요한 진전을 이루었습니다. 그러나 오픈소스 알고리즘과 이러한 클로즈드소스 모델 간에는 여전히 큰 격차가 존재합니다. 따라서 본 논문에서는 GPT-4o 및 Gemini2 Flash와 같은 클로즈드소스 모델에 필적하는 성능을 제공할 수 있는 최첨단 이미지 편집 모델인 Step1X-Edit을 공개하고자 합니다. 보다 구체적으로, 우리는 멀티모달 LLM을 사용하여 참조 이미지와 사용자의 편집 지시를 처리합니다. 잠재 임베딩을 추출하고 이를 확산 이미지 디코더와 통합하여 목표 이미지를 얻습니다. 모델을 학습시키기 위해 고품질 데이터셋을 생성하는 데이터 생성 파이프라인을 구축했습니다. 평가를 위해 실제 사용자 지시를 기반으로 한 새로운 벤치마크인 GEdit-Bench를 개발했습니다. GEdit-Bench에서의 실험 결과는 Step1X-Edit이 기존의 오픈소스 베이스라인을 상당한 차이로 능가하며, 선도적인 독점 모델의 성능에 근접함을 보여줌으로써 이미지 편집 분야에 중요한 기여를 하고 있음을 입증합니다.
English
In recent years, image editing models have witnessed remarkable and rapid development. The recent unveiling of cutting-edge multimodal models such as GPT-4o and Gemini2 Flash has introduced highly promising image editing capabilities. These models demonstrate an impressive aptitude for fulfilling a vast majority of user-driven editing requirements, marking a significant advancement in the field of image manipulation. However, there is still a large gap between the open-source algorithm with these closed-source models. Thus, in this paper, we aim to release a state-of-the-art image editing model, called Step1X-Edit, which can provide comparable performance against the closed-source models like GPT-4o and Gemini2 Flash. More specifically, we adopt the Multimodal LLM to process the reference image and the user's editing instruction. A latent embedding has been extracted and integrated with a diffusion image decoder to obtain the target image. To train the model, we build a data generation pipeline to produce a high-quality dataset. For evaluation, we develop the GEdit-Bench, a novel benchmark rooted in real-world user instructions. Experimental results on GEdit-Bench demonstrate that Step1X-Edit outperforms existing open-source baselines by a substantial margin and approaches the performance of leading proprietary models, thereby making significant contributions to the field of image editing.

Summary

AI-Generated Summary

PDF833April 25, 2025