WeEdit: 텍스트 중심 이미지 편집을 위한 데이터셋, 벤치마크 및 글리프 기반 프레임워크
WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing
March 12, 2026
저자: Hui Zhang, Juntao Liu, Zongkai Liu, Liqiang Niu, Fandong Meng, Zuxuan Wu, Yu-Gang Jiang
cs.AI
초록
지시어 기반 이미지 편집은 비대상 영역을 보존하면서 사용자가 제공한 지시에 따라 기존 이미지의 특정 콘텐츠를 수정하는 것을 목표로 합니다. 기존의 객체 및 스타일 중심 조작을 넘어, 텍스트 중심 이미지 편집은 이미지 내에 내재된 텍스트 요소를 수정, 번역 또는 재배열하는 데 중점을 둡니다. 그러나 기존의 주요 모델들은 복잡한 텍스트 편집을 정확하게 실행하는 데 어려움을 겪으며, 흐릿하거나 허구적인 문자를 생성하는 경우가 많습니다. 이러한 실패의 주요 원인은 텍스트 중심 편집에 특화된 훈련 패러다임의 부족과 폐쇄형 훈련 및 평가 시스템에 필요한 대규모 데이터셋 및 표준화된 벤치마크의 부재로 파악됩니다. 이러한 한계를 해결하기 위해 우리는 확장 가능한 데이터 구축 파이프라인, 두 가지 벤치마크, 그리고 맞춤형 2단계 훈련 전략을 포함하는 체계적인 솔루션인 WeEdit을 제시합니다. 구체적으로, 다양한 편집 작업과 15개 언어를 포괄하는 330K 개의 훈련 데이터 쌍을 생성하는 새로운 HTML 기반 자동 편집 파이프라인과 포괄적 평가를 위한 표준화된 이중 언어 및 다국어 벤치마크를 함께 제안합니다. 알고리즘 측면에서는 명시적 공간 및 콘텐츠 사전 지식을 주입하기 위해 글리프 기반 지도 미세 조정을 적용한 후, 생성 결과가 지시 준수, 텍스트 선명도, 배경 보존과 일치하도록 조정하는 다중 목표 강화 학습 단계를 수행합니다. 광범위한 실험을 통해 WeEdit이 다양한 편집 작업에서 기존 오픈소스 모델들을 명확한 차이로 능가함을 입증합니다.
English
Instruction-based image editing aims to modify specific content within existing images according to user-provided instructions while preserving non-target regions. Beyond traditional object- and style-centric manipulation, text-centric image editing focuses on modifying, translating, or rearranging textual elements embedded within images. However, existing leading models often struggle to execute complex text editing precisely, frequently producing blurry or hallucinated characters. We attribute these failures primarily to the lack of specialized training paradigms tailored for text-centric editing, as well as the absence of large-scale datasets and standardized benchmarks necessary for a closed-loop training and evaluation system. To address these limitations, we present WeEdit, a systematic solution encompassing a scalable data construction pipeline, two benchmarks, and a tailored two-stage training strategy. Specifically, we propose a novel HTML-based automatic editing pipeline, which generates 330K training pairs covering diverse editing operations and 15 languages, accompanied by standardized bilingual and multilingual benchmarks for comprehensive evaluation. On the algorithmic side, we employ glyph-guided supervised fine-tuning to inject explicit spatial and content priors, followed by a multi-objective reinforcement learning stage to align generation with instruction adherence, text clarity, and background preservation. Extensive experiments demonstrate that WeEdit outperforms previous open-source models by a clear margin across diverse editing operations.