WeEdit : un ensemble de données, un benchmark et un cadre guidé par les glyphes pour l'édition d'images centrée sur le texte

Résumé

L'édition d'images basée sur des instructions vise à modifier un contenu spécifique dans des images existantes selon les instructions de l'utilisateur, tout en préservant les régions non ciblées. Au-delà de la manipulation traditionnelle centrée sur les objets et les styles, l'édition d'images centrée sur le texte se concentre sur la modification, la traduction ou la réorganisation des éléments textuels intégrés dans les images. Cependant, les modèles leaders existants peinent souvent à exécuter avec précision des éditions textuelles complexes, produisant fréquemment des caractères flous ou hallucinés. Nous attribuons principalement ces échecs à l'absence de paradigmes d'entraînement spécialisés adaptés à l'édition centrée sur le texte, ainsi qu'au manque de jeux de données à grande échelle et de benchmarks standardisés nécessaires à un système d'entraînement et d'évaluation en boucle fermée. Pour résoudre ces limitations, nous présentons WeEdit, une solution systématique comprenant un pipeline de construction de données évolutif, deux benchmarks et une stratégie d'entraînement en deux étapes sur mesure. Spécifiquement, nous proposons un nouveau pipeline d'édition automatique basé sur HTML, qui génère 330 000 paires d'entraînement couvrant diverses opérations d'édition et 15 langues, accompagnées de benchmarks bilingues et multilingues standardisés pour une évaluation complète. Sur le plan algorithmique, nous utilisons un fine-tuning supervisé guidé par la glyphe pour injecter des préalables spatiaux et de contenu explicites, suivi d'une étape d'apprentissage par renforcement multi-objectif pour aligner la génération sur le respect des instructions, la clarté du texte et la préservation de l'arrière-plan. Des expériences approfondies démontrent que WeEdit surpasse les modèles open-source précédents par une marge significative sur diverses opérations d'édition.

English

Instruction-based image editing aims to modify specific content within existing images according to user-provided instructions while preserving non-target regions. Beyond traditional object- and style-centric manipulation, text-centric image editing focuses on modifying, translating, or rearranging textual elements embedded within images. However, existing leading models often struggle to execute complex text editing precisely, frequently producing blurry or hallucinated characters. We attribute these failures primarily to the lack of specialized training paradigms tailored for text-centric editing, as well as the absence of large-scale datasets and standardized benchmarks necessary for a closed-loop training and evaluation system. To address these limitations, we present WeEdit, a systematic solution encompassing a scalable data construction pipeline, two benchmarks, and a tailored two-stage training strategy. Specifically, we propose a novel HTML-based automatic editing pipeline, which generates 330K training pairs covering diverse editing operations and 15 languages, accompanied by standardized bilingual and multilingual benchmarks for comprehensive evaluation. On the algorithmic side, we employ glyph-guided supervised fine-tuning to inject explicit spatial and content priors, followed by a multi-objective reinforcement learning stage to align generation with instruction adherence, text clarity, and background preservation. Extensive experiments demonstrate that WeEdit outperforms previous open-source models by a clear margin across diverse editing operations.

WeEdit : un ensemble de données, un benchmark et un cadre guidé par les glyphes pour l'édition d'images centrée sur le texte

WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing

Résumé

Support