GlyphPrinter: Regio-gegroepeerde Directe Voorkeursoptimalisatie voor Glyf-accurate Visuele Tekstweergave

Samenvatting

Het genereren van nauwkeurige glyphs voor visuele tekstweergave is essentieel maar uitdagend. Bestaande methoden verbeteren tekstweergave doorgaans door training op grote hoeveelheden hoogwaardige scènetekstafbeeldingen, maar de beperkte dekking van glyph-variaties en excessieve stilisering gaan vaak ten koste van de glyph-nauwkeurigheid, vooral voor complexe of uit-domein karakters. Sommige methoden benutten reinforcement learning om dit probleem te verlichten, maar hun beloningsmodellen zijn doorgaans afhankelijk van tekstherkenningssystemen die ongevoelig zijn voor fijnmazige glyph-fouten, waardoor afbeeldingen met incorrecte glyphs toch hoge beloningen kunnen ontvangen. Geïnspireerd door Direct Preference Optimization (DPO) stellen wij GlyphPrinter voor, een op voorkeuren gebaseerde tekstweergavemethode die de afhankelijkheid van expliciete beloningsmodellen elimineert. Het standaard DPO-doel modelleert echter alleen de algehele voorkeur tussen twee samples, wat onvoldoende is voor visuele tekstweergave waarbij glyph-fouten typisch in gelokaliseerde regio's optreden. Om dit probleem aan te pakken, construeren we de GlyphCorrector-dataset met regiogeannoteerde glyph-voorkeuren en introduceren we Region-Grouped DPO (R-GDPO), een op regio's gebaseerd doel dat inter- en intra-sample voorkeuren over geannoteerde regio's optimaliseert, waardoor de glyph-nauwkeurigheid aanzienlijk verbetert. Verder introduceren we Regional Reward Guidance, een inferentiestrategie die samples uit een optimale distributie haalt met controleerbare glyph-nauwkeurigheid. Uitgebreide experimenten tonen aan dat de voorgestelde GlyphPrinter superieur presteert aan bestaande methoden in glyph-nauwkeurigheid, terwijl een gunstige balans tussen stilisering en precisie behouden blijft.

English

Generating accurate glyphs for visual text rendering is essential yet challenging. Existing methods typically enhance text rendering by training on a large amount of high-quality scene text images, but the limited coverage of glyph variations and excessive stylization often compromise glyph accuracy, especially for complex or out-of-domain characters. Some methods leverage reinforcement learning to alleviate this issue, yet their reward models usually depend on text recognition systems that are insensitive to fine-grained glyph errors, so images with incorrect glyphs may still receive high rewards. Inspired by Direct Preference Optimization (DPO), we propose GlyphPrinter, a preference-based text rendering method that eliminates reliance on explicit reward models. However, the standard DPO objective only models overall preference between two samples, which is insufficient for visual text rendering where glyph errors typically occur in localized regions. To address this issue, we construct the GlyphCorrector dataset with region-level glyph preference annotations and propose Region-Grouped DPO (R-GDPO), a region-based objective that optimizes inter- and intra-sample preferences over annotated regions, substantially enhancing glyph accuracy. Furthermore, we introduce Regional Reward Guidance, an inference strategy that samples from an optimal distribution with controllable glyph accuracy. Extensive experiments demonstrate that the proposed GlyphPrinter outperforms existing methods in glyph accuracy while maintaining a favorable balance between stylization and precision.

GlyphPrinter: Regio-gegroepeerde Directe Voorkeursoptimalisatie voor Glyf-accurate Visuele Tekstweergave

GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering

Samenvatting

Support