WeEdit: набор данных, эталонный тест и глиф-ориентированная структура для редактирования текстоцентричных изображений

Аннотация

Редактирование изображений на основе инструкций направлено на изменение конкретного содержимого существующих изображений в соответствии с предоставленными пользователем указаниями при сохранении нетронутых областей. В отличие от традиционных манипуляций, сфокусированных на объектах и стиле, тексто-ориентированное редактирование изображений концентрируется на изменении, переводе или перестановке текстовых элементов, встроенных в изображения. Однако существующие ведущие модели часто испытывают трудности с точным выполнением сложного текстового редактирования, нередко создавая размытые или "галлюцинированные" символы. Мы связываем эти неудачи в первую очередь с отсутствием специализированных парадигм обучения, адаптированных для тексто-ориентированного редактирования, а также с нехваткой масштабируемых наборов данных и стандартизированных бенчмарков, необходимых для замкнутой системы обучения и оценки. Для решения этих проблем мы представляем WeEdit — системное решение, включающее масштабируемый конвейер создания данных, два бенчмарка и специальную двухэтапную стратегию обучения. В частности, мы предлагаем новый автоматизированный конвейер редактирования на основе HTML, который генерирует 330 тыс. учебных пар, охватывающих разнообразные операции редактирования и 15 языков, сопровождаемых стандартизированными двуязычными и многоязычными бенчмарками для комплексной оценки. На алгоритмической стороне мы используем контролируемую тонкую настройку с глиф-ориентированным руководством для внедрения явных пространственных и контентных априорных знаний, за которой следует этап обучения с подкреплением с множественными целями для согласования генерации с соблюдением инструкций, четкостью текста и сохранностью фона. Многочисленные эксперименты демонстрируют, что WeEdit превосходит предыдущие модели с открытым исходным кодом с существенным отрывом при выполнении разнообразных операций редактирования.

English

Instruction-based image editing aims to modify specific content within existing images according to user-provided instructions while preserving non-target regions. Beyond traditional object- and style-centric manipulation, text-centric image editing focuses on modifying, translating, or rearranging textual elements embedded within images. However, existing leading models often struggle to execute complex text editing precisely, frequently producing blurry or hallucinated characters. We attribute these failures primarily to the lack of specialized training paradigms tailored for text-centric editing, as well as the absence of large-scale datasets and standardized benchmarks necessary for a closed-loop training and evaluation system. To address these limitations, we present WeEdit, a systematic solution encompassing a scalable data construction pipeline, two benchmarks, and a tailored two-stage training strategy. Specifically, we propose a novel HTML-based automatic editing pipeline, which generates 330K training pairs covering diverse editing operations and 15 languages, accompanied by standardized bilingual and multilingual benchmarks for comprehensive evaluation. On the algorithmic side, we employ glyph-guided supervised fine-tuning to inject explicit spatial and content priors, followed by a multi-objective reinforcement learning stage to align generation with instruction adherence, text clarity, and background preservation. Extensive experiments demonstrate that WeEdit outperforms previous open-source models by a clear margin across diverse editing operations.

WeEdit: набор данных, эталонный тест и глиф-ориентированная структура для редактирования текстоцентричных изображений

WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing

Аннотация

Support