GlyphPrinter: Ottimizzazione Diretta delle Preferenze per Gruppi di Regioni per il Rendering Visivo del Testo Preciso a Livello di Glifo

Abstract

La generazione accurata di glifi per il rendering visivo del testo è essenziale ma impegnativa. I metodi esistenti migliorano tipicamente il rendering del testo addestrandosi su grandi quantità di immagini di testo scena di alta qualità, ma la limitata copertura delle variazioni di glifo e l'eccessiva stilizzazione spesso compromettono l'accuratezza dei glifi, specialmente per caratteri complessi o fuori dominio. Alcuni metodi utilizzano l'apprendimento per rinforzo per alleviare questo problema, tuttavia i loro modelli di ricompensa dipendono solitamente da sistemi di riconoscimento del testo insensibili agli errori di glifo granulari, quindi immagini con glifi errati possono comunque ricevere ricompense elevate. Ispirati dall'ottimizzazione diretta delle preferenze (DPO), proponiamo GlyphPrinter, un metodo di rendering del testo basato sulle preferenze che elimina la dipendenza da modelli espliciti di ricompensa. Tuttavia, l'obiettivo DPO standard modella solo la preferenza complessiva tra due campioni, il che è insufficiente per il rendering visivo del testo dove gli errori di glifo si verificano tipicamente in regioni localizzate. Per affrontare questo problema, costruiamo il dataset GlyphCorrector con annotazioni di preferenza di glifo a livello regionale e proponiamo DPO a Gruppi Regionali (R-GDPO), un obiettivo regionale che ottimizza le preferenze inter-campione e intra-campione sulle regioni annotate, migliorando sostanzialmente l'accuratezza dei glifi. Inoltre, introduciamo la Guida alla Ricompensa Regionale, una strategia di inferenza che campiona da una distribuzione ottimale con accuratezza dei glifi controllabile. Esperimenti estesi dimostrano che il GlyphPrinter proposto supera i metodi esistenti in accuratezza dei glifi mantenendo un equilibrio favorevole tra stilizzazione e precisione.

English

Generating accurate glyphs for visual text rendering is essential yet challenging. Existing methods typically enhance text rendering by training on a large amount of high-quality scene text images, but the limited coverage of glyph variations and excessive stylization often compromise glyph accuracy, especially for complex or out-of-domain characters. Some methods leverage reinforcement learning to alleviate this issue, yet their reward models usually depend on text recognition systems that are insensitive to fine-grained glyph errors, so images with incorrect glyphs may still receive high rewards. Inspired by Direct Preference Optimization (DPO), we propose GlyphPrinter, a preference-based text rendering method that eliminates reliance on explicit reward models. However, the standard DPO objective only models overall preference between two samples, which is insufficient for visual text rendering where glyph errors typically occur in localized regions. To address this issue, we construct the GlyphCorrector dataset with region-level glyph preference annotations and propose Region-Grouped DPO (R-GDPO), a region-based objective that optimizes inter- and intra-sample preferences over annotated regions, substantially enhancing glyph accuracy. Furthermore, we introduce Regional Reward Guidance, an inference strategy that samples from an optimal distribution with controllable glyph accuracy. Extensive experiments demonstrate that the proposed GlyphPrinter outperforms existing methods in glyph accuracy while maintaining a favorable balance between stylization and precision.

GlyphPrinter: Ottimizzazione Diretta delle Preferenze per Gruppi di Regioni per il Rendering Visivo del Testo Preciso a Livello di Glifo

GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering

Abstract

Support