TextPecker : Quantification des anomalies structurelles pour améliorer le rendu visuel du texte

Résumé

La restitution visuelle de texte (VRT) reste un défi majeur dans la génération d'images à partir de texte, où même les modèles avancés produisent fréquemment du texte présentant des anomalies structurelles telles que des distorsions, des flous et des désalignements. Cependant, nous constatons que les MLLM leaders et les modèles spécialisés en OCR échouent largement à percevoir ces anomalies structurelles, créant un goulot d'étranglement critique pour l'évaluation de la VRT et l'optimisation par apprentissage par renforcement. Par conséquent, même les générateurs les plus performants (par exemple, SeedDream4.0, Qwen-Image) peinent encore à restituer un texte structurellement fidèle. Pour remédier à cela, nous proposons TextPecker, une stratégie d'AR plug-and-play, perceptive aux anomalies structurelles, qui atténue les signaux de récompense bruités et fonctionne avec n'importe quel générateur texte-image. Pour permettre cette capacité, nous avons constitué un jeu de données de reconnaissance avec des annotations d'anomalies structurelles au niveau des caractères et développé un moteur de synthèse par édition de traits pour étendre la couverture des erreurs structurelles. Les expériences montrent que TextPecker améliore constamment divers modèles de génération texte-image ; même sur Qwen-Image pourtant bien optimisé, il permet des gains moyens significatifs de 4 % en fidélité structurelle et de 8,7 % en alignement sémantique pour la restitution de texte chinois, établissant un nouvel état de l'art en VRT haute fidélité. Notre travail comble une lacune dans l'optimisation de la VRT, constituant une étape fondamentale vers une génération de texte visuel fiable et structurellement fidèle.

English

Visual Text Rendering (VTR) remains a critical challenge in text-to-image generation, where even advanced models frequently produce text with structural anomalies such as distortion, blurriness, and misalignment. However, we find that leading MLLMs and specialist OCR models largely fail to perceive these structural anomalies, creating a critical bottleneck for both VTR evaluation and RL-based optimization. As a result, even state-of-the-art generators (e.g., SeedDream4.0, Qwen-Image) still struggle to render structurally faithful text. To address this, we propose TextPecker, a plug-and-play structural anomaly perceptive RL strategy that mitigates noisy reward signals and works with any textto-image generator. To enable this capability, we construct a recognition dataset with character-level structural-anomaly annotations and develop a stroke-editing synthesis engine to expand structural-error coverage. Experiments show that TextPecker consistently improves diverse text-to-image models; even on the well-optimized Qwen-Image, it significantly yields average gains of 4% in structural fidelity and 8.7% in semantic alignment for Chinese text rendering, establishing a new state-of-the-art in high-fidelity VTR. Our work fills a gap in VTR optimization, providing a foundational step towards reliable and structural faithful visual text generation.

TextPecker : Quantification des anomalies structurelles pour améliorer le rendu visuel du texte

TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

Résumé

Support