GlyphPrinter : Optimisation Directe des Préférences par Région Groupée pour un Rendu Visuel de Texte Fidèle aux Glyphes

Résumé

La génération précise de glyphes pour le rendu visuel de texte est essentielle mais difficile. Les méthodes existantes améliorent généralement le rendu de texte en s’entraînant sur un grand nombre d’images de texte scénique de haute qualité, mais la couverture limitée des variations de glyphes et une stylisation excessive compromettent souvent la précision des glyphes, en particulier pour les caractères complexes ou hors domaine. Certaines méthodes utilisent l’apprentissage par renforcement pour atténuer ce problème, mais leurs modèles de récompense reposent généralement sur des systèmes de reconnaissance de texte insensibles aux erreurs fines de glyphes, de sorte que les images avec des glyphes incorrects peuvent tout de même recevoir des récompenses élevées. Inspirés par l’Optimisation Directe des Préférences (DPO), nous proposons GlyphPrinter, une méthode de rendu de texte basée sur les préférences qui élimine la dépendance à des modèles de récompense explicites. Cependant, l’objectif DPO standard ne modélise que la préférence globale entre deux échantillons, ce qui est insuffisant pour le rendu visuel de texte où les erreurs de glyphes surviennent généralement dans des régions localisées. Pour résoudre ce problème, nous construisons le jeu de données GlyphCorrector avec des annotations de préférence de glyphes au niveau régional et proposons R-GDPO (Region-Grouped DPO), un objectif régional qui optimise les préférences inter et intra-échantillons sur les régions annotées, améliorant considérablement la précision des glyphes. De plus, nous introduisons le Guidage par Récompense Régionale, une stratégie d’inférence qui échantillonne à partir d’une distribution optimale avec une précision de glyphes contrôlable. Des expériences approfondies démontrent que GlyphPrinter surpasse les méthodes existantes en précision de glyphes tout en maintenant un équilibre favorable entre stylisation et précision.

English

Generating accurate glyphs for visual text rendering is essential yet challenging. Existing methods typically enhance text rendering by training on a large amount of high-quality scene text images, but the limited coverage of glyph variations and excessive stylization often compromise glyph accuracy, especially for complex or out-of-domain characters. Some methods leverage reinforcement learning to alleviate this issue, yet their reward models usually depend on text recognition systems that are insensitive to fine-grained glyph errors, so images with incorrect glyphs may still receive high rewards. Inspired by Direct Preference Optimization (DPO), we propose GlyphPrinter, a preference-based text rendering method that eliminates reliance on explicit reward models. However, the standard DPO objective only models overall preference between two samples, which is insufficient for visual text rendering where glyph errors typically occur in localized regions. To address this issue, we construct the GlyphCorrector dataset with region-level glyph preference annotations and propose Region-Grouped DPO (R-GDPO), a region-based objective that optimizes inter- and intra-sample preferences over annotated regions, substantially enhancing glyph accuracy. Furthermore, we introduce Regional Reward Guidance, an inference strategy that samples from an optimal distribution with controllable glyph accuracy. Extensive experiments demonstrate that the proposed GlyphPrinter outperforms existing methods in glyph accuracy while maintaining a favorable balance between stylization and precision.

GlyphPrinter : Optimisation Directe des Préférences par Région Groupée pour un Rendu Visuel de Texte Fidèle aux Glyphes

GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering

Résumé

Support