GlyphPrinter: Регионально-группированная прямая оптимизация предпочтений для точного визуального отображения текста с глифами
GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering
March 16, 2026
Авторы: Xincheng Shuai, Ziye Li, Henghui Ding, Dacheng Tao
cs.AI
Аннотация
Генерация точных глифов для визуального рендеринга текста является важной, но сложной задачей. Существующие методы обычно улучшают рендеринг текста за счет обучения на большом количестве высококачественных изображений сценового текста, однако ограниченный охват вариаций глифов и чрезмерная стилизация часто снижают их точность, особенно для сложных или редких символов. Некоторые методы используют обучение с подкреплением для смягчения этой проблемы, но их модели вознаграждения обычно зависят от систем распознавания текста, которые нечувствительны к мелким ошибкам глифов, поэтому изображения с некорректными глифами могут получать высокие оценки. Вдохновленные методом прямой оптимизации предпочтений (Direct Preference Optimization, DPO), мы предлагаем GlyphPrinter — метод рендеринга текста на основе предпочтений, который исключает зависимость от явных моделей вознаграждения. Однако стандартная цель DPO моделирует лишь общее предпочтение между двумя образцами, что недостаточно для визуального рендеринга текста, где ошибки глифов обычно возникают в локальных областях. Для решения этой проблемы мы создали набор данных GlyphCorrector с аннотациями предпочтений глифов на уровне регионов и предлагаем Region-Grouped DPO (R-GDPO) — регионально-ориентированную цель, которая оптимизирует межвыборочные и внутривыборочные предпочтения по аннотированным областям, существенно повышая точность глифов. Кроме того, мы представляем Regional Reward Guidance — стратегию вывода, которая осуществляет выборку из оптимального распределения с контролируемой точностью глифов. Многочисленные эксперименты демонстрируют, что предложенный метод GlyphPrinter превосходит существующие подходы по точности глифов, сохраняя при этом благоприятный баланс между стилизацией и точностью.
English
Generating accurate glyphs for visual text rendering is essential yet challenging. Existing methods typically enhance text rendering by training on a large amount of high-quality scene text images, but the limited coverage of glyph variations and excessive stylization often compromise glyph accuracy, especially for complex or out-of-domain characters. Some methods leverage reinforcement learning to alleviate this issue, yet their reward models usually depend on text recognition systems that are insensitive to fine-grained glyph errors, so images with incorrect glyphs may still receive high rewards. Inspired by Direct Preference Optimization (DPO), we propose GlyphPrinter, a preference-based text rendering method that eliminates reliance on explicit reward models. However, the standard DPO objective only models overall preference between two samples, which is insufficient for visual text rendering where glyph errors typically occur in localized regions. To address this issue, we construct the GlyphCorrector dataset with region-level glyph preference annotations and propose Region-Grouped DPO (R-GDPO), a region-based objective that optimizes inter- and intra-sample preferences over annotated regions, substantially enhancing glyph accuracy. Furthermore, we introduce Regional Reward Guidance, an inference strategy that samples from an optimal distribution with controllable glyph accuracy. Extensive experiments demonstrate that the proposed GlyphPrinter outperforms existing methods in glyph accuracy while maintaining a favorable balance between stylization and precision.