WeEdit: テキスト中心画像編集のためのデータセット、ベンチマークおよびグリフ誘導フレームワーク
WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing
March 12, 2026
著者: Hui Zhang, Juntao Liu, Zongkai Liu, Liqiang Niu, Fandong Meng, Zuxuan Wu, Yu-Gang Jiang
cs.AI
要旨
指示に基づく画像編集は、既存の画像内の特定の内容をユーザーが提供する指示に従って修正し、非対象領域を保持することを目的としています。従来のオブジェクト中心やスタイル中心の操作を超えて、テキスト中心の画像編集は画像に埋め込まれたテキスト要素の修正、翻訳、または再配置に焦点を当てています。しかし、既存の主要モデルは複雑なテキスト編集を正確に実行するのに苦戦することが多く、ぼやけた文字や虚構の文字を生成することが頻繁にあります。私たちはこれらの失敗の主な原因を、テキスト中心の編集に特化した訓練パラダイムの不足、および閉ループの訓練と評価システムに必要な大規模なデータセットと標準化されたベンチマークの欠如にあると考えます。これらの制限に対処するため、私たちはWeEditを提案します。これは、スケーラブルなデータ構築パイプライン、2つのベンチマーク、および特化した2段階の訓練戦略を含む体系的なソリューションです。具体的には、新しいHTMLベースの自動編集パイプラインを提案し、多様な編集操作と15言語をカバーする33万組の訓練ペアを生成し、包括的な評価のための標準化された二言語および多言語ベンチマークを提供します。アルゴリズム面では、グリフ誘導監視ファインチューニングを用いて明示的な空間および内容の事前情報を注入し、その後、多目的強化学習段階を経て、生成を指示への遵守、テキストの明瞭さ、背景の保持に整合させます。大規模な実験により、WeEditが多様な編集操作において従来のオープンソースモデルを明確に上回る性能を示すことが実証されています。
English
Instruction-based image editing aims to modify specific content within existing images according to user-provided instructions while preserving non-target regions. Beyond traditional object- and style-centric manipulation, text-centric image editing focuses on modifying, translating, or rearranging textual elements embedded within images. However, existing leading models often struggle to execute complex text editing precisely, frequently producing blurry or hallucinated characters. We attribute these failures primarily to the lack of specialized training paradigms tailored for text-centric editing, as well as the absence of large-scale datasets and standardized benchmarks necessary for a closed-loop training and evaluation system. To address these limitations, we present WeEdit, a systematic solution encompassing a scalable data construction pipeline, two benchmarks, and a tailored two-stage training strategy. Specifically, we propose a novel HTML-based automatic editing pipeline, which generates 330K training pairs covering diverse editing operations and 15 languages, accompanied by standardized bilingual and multilingual benchmarks for comprehensive evaluation. On the algorithmic side, we employ glyph-guided supervised fine-tuning to inject explicit spatial and content priors, followed by a multi-objective reinforcement learning stage to align generation with instruction adherence, text clarity, and background preservation. Extensive experiments demonstrate that WeEdit outperforms previous open-source models by a clear margin across diverse editing operations.