GlyphPrinter: Bereichsgruppierte Direkte Präferenzoptimierung für glyphengenaue visuelle Textdarstellung

Zusammenfassung

Die Erzeugung präziser Glyphen für das visuelle Textrendering ist entscheidend, aber herausfordernd. Bestehende Methoden verbessern das Textrendering typischerweise durch Training mit einer großen Menge hochwertiger Szenentextbilder, doch die begrenzte Abdeckung von Glyphenvarianten und übermäßige Stilisierung beeinträchtigen oft die Glyphengenauigkeit, insbesondere bei komplexen oder domänenfremden Zeichen. Einige Methoden nutzen bestärkendes Lernen, um dieses Problem zu mildern, doch deren Belohnungsmodelle basieren meist auf Texterkennungssystemen, die unempfindlich gegenüber feinkörnigen Glyphenfehlern sind, sodass Bilder mit falschen Glyphen dennoch hohe Belohnungen erhalten können. Inspiriert von Direct Preference Optimization (DPO) schlagen wir GlyphPrinter vor, eine präferenzbasierte Textrendering-Methode, die die Abhängigkeit von expliziten Belohnungsmodellen eliminiert. Allerdings modelliert das standardmäßige DPO-Ziel nur die Gesamtpräferenz zwischen zwei Stichproben, was für visuelles Textrendering unzureichend ist, da Glyphenfehler typischerweise in lokalisierten Regionen auftreten. Um dieses Problem zu adressieren, erstellen wir den GlyphCorrector-Datensatz mit Annotationen auf Regionsebene für Glyphenpräferenzen und schlagen Region-Grouped DPO (R-GDPO) vor, ein regionsbasiertes Ziel, das Inter- und Intra-Stichproben-Präferenzen über annotierte Regionen optimiert und die Glyphengenauigkeit erheblich verbessert. Darüber hinaus führen wir Regional Reward Guidance ein, eine Inferenzstrategie, die aus einer optimalen Verteilung mit kontrollierbarer Glyphengenauigkeit sampelt. Umfangreiche Experimente zeigen, dass das vorgeschlagene GlyphPrinter-System bestehende Methoden in der Glyphengenauigkeit übertrifft und dabei ein günstiges Gleichgewicht zwischen Stilisierung und Präzision beibehält.

English

Generating accurate glyphs for visual text rendering is essential yet challenging. Existing methods typically enhance text rendering by training on a large amount of high-quality scene text images, but the limited coverage of glyph variations and excessive stylization often compromise glyph accuracy, especially for complex or out-of-domain characters. Some methods leverage reinforcement learning to alleviate this issue, yet their reward models usually depend on text recognition systems that are insensitive to fine-grained glyph errors, so images with incorrect glyphs may still receive high rewards. Inspired by Direct Preference Optimization (DPO), we propose GlyphPrinter, a preference-based text rendering method that eliminates reliance on explicit reward models. However, the standard DPO objective only models overall preference between two samples, which is insufficient for visual text rendering where glyph errors typically occur in localized regions. To address this issue, we construct the GlyphCorrector dataset with region-level glyph preference annotations and propose Region-Grouped DPO (R-GDPO), a region-based objective that optimizes inter- and intra-sample preferences over annotated regions, substantially enhancing glyph accuracy. Furthermore, we introduce Regional Reward Guidance, an inference strategy that samples from an optimal distribution with controllable glyph accuracy. Extensive experiments demonstrate that the proposed GlyphPrinter outperforms existing methods in glyph accuracy while maintaining a favorable balance between stylization and precision.

GlyphPrinter: Bereichsgruppierte Direkte Präferenzoptimierung für glyphengenaue visuelle Textdarstellung

GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering

Zusammenfassung

Support