GlyphPrinter: Otimização de Preferência Direta Agrupada por Região para Renderização Visual de Texto com Precisão de Glifo

Resumo

A geração precisa de glifos para renderização visual de texto é essencial, porém desafiadora. Os métodos existentes normalmente aprimoram a renderização de texto treinando com grandes quantidades de imagens de texto de cena de alta qualidade, mas a cobertura limitada de variações de glifos e a excessiva estilização frequentemente comprometem a precisão dos glifos, especialmente para caracteres complexos ou fora do domínio. Alguns métodos utilizam aprendizagem por reforço para aliviar esse problema, porém seus modelos de recompensa geralmente dependem de sistemas de reconhecimento de texto que são insensíveis a erros de glifos em nível granular, de modo que imagens com glifos incorretos ainda podem receber altas recompensas. Inspirados pela Otimização de Preferência Direta (DPO), propomos o GlyphPrinter, um método de renderização de texto baseado em preferência que elimina a dependência de modelos de recompensa explícitos. No entanto, o objetivo padrão do DPO modela apenas a preferência geral entre duas amostras, o que é insuficiente para a renderização visual de texto, onde os erros de glifos normalmente ocorrem em regiões localizadas. Para resolver esse problema, construímos o conjunto de dados GlyphCorrector com anotações de preferência de glifos em nível regional e propomos o DPO Agrupado por Região (R-GDPO), um objetivo baseado em região que otimiza preferências inter e intra-amostra sobre regiões anotadas, aprimorando substancialmente a precisão dos glifos. Além disso, introduzimos a Orientação de Recompensa Regional, uma estratégia de inferência que amostra a partir de uma distribuição ótima com precisão de glifos controlável. Experimentos extensivos demonstram que o GlyphPrinter proposto supera os métodos existentes em precisão de glifos, mantendo um equilíbrio favorável entre estilização e precisão.

English

Generating accurate glyphs for visual text rendering is essential yet challenging. Existing methods typically enhance text rendering by training on a large amount of high-quality scene text images, but the limited coverage of glyph variations and excessive stylization often compromise glyph accuracy, especially for complex or out-of-domain characters. Some methods leverage reinforcement learning to alleviate this issue, yet their reward models usually depend on text recognition systems that are insensitive to fine-grained glyph errors, so images with incorrect glyphs may still receive high rewards. Inspired by Direct Preference Optimization (DPO), we propose GlyphPrinter, a preference-based text rendering method that eliminates reliance on explicit reward models. However, the standard DPO objective only models overall preference between two samples, which is insufficient for visual text rendering where glyph errors typically occur in localized regions. To address this issue, we construct the GlyphCorrector dataset with region-level glyph preference annotations and propose Region-Grouped DPO (R-GDPO), a region-based objective that optimizes inter- and intra-sample preferences over annotated regions, substantially enhancing glyph accuracy. Furthermore, we introduce Regional Reward Guidance, an inference strategy that samples from an optimal distribution with controllable glyph accuracy. Extensive experiments demonstrate that the proposed GlyphPrinter outperforms existing methods in glyph accuracy while maintaining a favorable balance between stylization and precision.

GlyphPrinter: Otimização de Preferência Direta Agrupada por Região para Renderização Visual de Texto com Precisão de Glifo

GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering

Resumo

Support