GlyphPrinter: Optimización Directa de Preferencias Agrupada por Regiones para la Representación Visual de Texto Precisa en Glifos

Resumen

La generación de glifos precisos para la representación visual de texto es esencial pero desafiante. Los métodos existentes suelen mejorar la renderización de texto entrenando con grandes cantidades de imágenes de texto escénico de alta calidad, pero la cobertura limitada de variaciones glíficas y la excesiva estilización a menudo comprometen la precisión de los glifos, especialmente para caracteres complejos o fuera de dominio. Algunos métodos aprovechan el aprendizaje por refuerzo para aliviar este problema, aunque sus modelos de recompensa generalmente dependen de sistemas de reconocimiento de texto que son insensibles a errores glíficos de grano fino, por lo que imágenes con glifos incorrectos aún pueden recibir altas recompensas. Inspirados en la Optimización de Preferencias Directas (DPO), proponemos GlyphPrinter, un método de renderizado de texto basado en preferencias que elimina la dependencia de modelos de recompensa explícitos. Sin embargo, el objetivo DPO estándar solo modela la preferencia general entre dos muestras, lo cual es insuficiente para la renderización visual de texto donde los errores glíficos típicamente ocurren en regiones localizadas. Para abordar este problema, construimos el conjunto de datos GlyphCorrector con anotaciones de preferencia glífica a nivel regional y proponemos DPO Agrupado por Región (R-GDPO), un objetivo basado en regiones que optimiza las preferencias inter e intra-muestra sobre regiones anotadas, mejorando sustancialmente la precisión glífica. Además, introducimos la Guía de Recompensa Regional, una estrategia de inferencia que muestrea desde una distribución óptima con precisión glífica controlable. Experimentos exhaustivos demuestran que el GlyphPrinter propuesto supera a los métodos existentes en precisión glífica mientras mantiene un equilibrio favorable entre estilización y precisión.

English

Generating accurate glyphs for visual text rendering is essential yet challenging. Existing methods typically enhance text rendering by training on a large amount of high-quality scene text images, but the limited coverage of glyph variations and excessive stylization often compromise glyph accuracy, especially for complex or out-of-domain characters. Some methods leverage reinforcement learning to alleviate this issue, yet their reward models usually depend on text recognition systems that are insensitive to fine-grained glyph errors, so images with incorrect glyphs may still receive high rewards. Inspired by Direct Preference Optimization (DPO), we propose GlyphPrinter, a preference-based text rendering method that eliminates reliance on explicit reward models. However, the standard DPO objective only models overall preference between two samples, which is insufficient for visual text rendering where glyph errors typically occur in localized regions. To address this issue, we construct the GlyphCorrector dataset with region-level glyph preference annotations and propose Region-Grouped DPO (R-GDPO), a region-based objective that optimizes inter- and intra-sample preferences over annotated regions, substantially enhancing glyph accuracy. Furthermore, we introduce Regional Reward Guidance, an inference strategy that samples from an optimal distribution with controllable glyph accuracy. Extensive experiments demonstrate that the proposed GlyphPrinter outperforms existing methods in glyph accuracy while maintaining a favorable balance between stylization and precision.

GlyphPrinter: Optimización Directa de Preferencias Agrupada por Regiones para la Representación Visual de Texto Precisa en Glifos

GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering

Resumen

Support