WeEdit: Um Conjunto de Dados, Benchmark e Framework Guiado por Glifos para Edição de Imagens Centrada em Texto

Resumo

A edição de imagens baseada em instruções visa modificar conteúdo específico em imagens existentes de acordo com instruções fornecidas pelo utilizador, preservando regiões não-alvo. Para além da manipulação tradicional centrada em objetos e estilos, a edição de imagens centrada em texto foca-se na modificação, tradução ou rearranjo de elementos textuais incorporados nas imagens. No entanto, os principais modelos existentes frequentemente lutam para executar edições de texto complexas com precisão, produzindo frequentemente caracteres desfocados ou alucinados. Atribuímos estas falhas principalmente à falta de paradigmas de treino especializados adaptados para edição centrada em texto, bem como à ausência de conjuntos de dados em larga escala e benchmarks padronizados necessários para um sistema de treino e avaliação de ciclo fechado. Para superar estas limitações, apresentamos o WeEdit, uma solução sistemática que abrange um pipeline escalável de construção de dados, dois benchmarks e uma estratégia de treino personalizada em duas etapas. Especificamente, propomos um novo pipeline de edição automática baseado em HTML, que gera 330 mil pares de treino cobrindo diversas operações de edição e 15 idiomas, acompanhado por benchmarks bilingues e multilingues padronizados para avaliação abrangente. No lado algorítmico, empregamos *fine-tuning* supervisionado guiado por glifos para injetar *priors* espaciais e de conteúdo explícitos, seguido por uma etapa de aprendizagem por reforço multiobjetivo para alinhar a geração com a adesão à instrução, clareza textual e preservação do fundo. Experiências extensivas demonstram que o WeEdit supera modelos *open-source* anteriores por uma margem clara em diversas operações de edição.

English

Instruction-based image editing aims to modify specific content within existing images according to user-provided instructions while preserving non-target regions. Beyond traditional object- and style-centric manipulation, text-centric image editing focuses on modifying, translating, or rearranging textual elements embedded within images. However, existing leading models often struggle to execute complex text editing precisely, frequently producing blurry or hallucinated characters. We attribute these failures primarily to the lack of specialized training paradigms tailored for text-centric editing, as well as the absence of large-scale datasets and standardized benchmarks necessary for a closed-loop training and evaluation system. To address these limitations, we present WeEdit, a systematic solution encompassing a scalable data construction pipeline, two benchmarks, and a tailored two-stage training strategy. Specifically, we propose a novel HTML-based automatic editing pipeline, which generates 330K training pairs covering diverse editing operations and 15 languages, accompanied by standardized bilingual and multilingual benchmarks for comprehensive evaluation. On the algorithmic side, we employ glyph-guided supervised fine-tuning to inject explicit spatial and content priors, followed by a multi-objective reinforcement learning stage to align generation with instruction adherence, text clarity, and background preservation. Extensive experiments demonstrate that WeEdit outperforms previous open-source models by a clear margin across diverse editing operations.

WeEdit: Um Conjunto de Dados, Benchmark e Framework Guiado por Glifos para Edição de Imagens Centrada em Texto

WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing

Resumo

Support