TextPecker: Beloning van Structurele Afwijkingenkwantificering voor Verbetering van Visuele Tekstweergave
TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering
February 24, 2026
Auteurs: Hanshen Zhu, Yuliang Liu, Xuecheng Wu, An-Lan Wang, Hao Feng, Dingkang Yang, Chao Feng, Can Huang, Jingqun Tang, Xiang Bai
cs.AI
Samenvatting
Visuele Tekstweergave (VTR) blijft een kritieke uitdaging in tekst-naar-beeld-generatie, waarbij zelfs geavanceerde modellen vaak tekst produceren met structurele anomalieën zoals vervorming, wazigheid en uitlijningfouten. Wij constateren echter dat toonaangevende MLLM's en gespecialiseerde OCR-modellen deze structurele anomalieën grotendeels niet waarnemen, wat een kritieke knelpunt vormt voor zowel VTR-evaluatie als op reinforcement learning (RL) gebaseerde optimalisatie. Hierdoor worstelen zelfs state-of-the-art-generatoren (zoals SeedDream4.0, Qwen-Image) nog steeds met het weergeven van structureel correcte tekst. Om dit aan te pakken, stellen wij TextPecker voor, een plug-and-play RL-strategie die structurele anomalieën waarneemt, ruis in beloningssignalen vermindert en met elke tekst-naar-beeld-generator werkt. Om deze mogelijkheid te realiseren, construeren we een herkenningsdataset met annotaties van structurele anomalieën op tekenniveau en ontwikkelen we een synthese-engine op basis van streekbewerking om de dekking van structurele fouten te vergroten. Experimenten tonen aan dat TextPecker consistente verbeteringen oplevert bij diverse tekst-naar-beeld-modellen; zelfs op de reeds goed geoptimaliseerde Qwen-Image levert het significante gemiddelde winsten op van 4% in structurele betrouwbaarheid en 8.7% in semantische uitlijning voor Chinese tekstweergave, waarmee een nieuwe state-of-the-art wordt gevestigd in hoogwaardige VTR. Ons werk vult een leemte in VTR-optimalisatie en vormt een fundamentele stap richting betrouwbare en structureel correcte visuele tekstgeneratie.
English
Visual Text Rendering (VTR) remains a critical challenge in text-to-image generation, where even advanced models frequently produce text with structural anomalies such as distortion, blurriness, and misalignment. However, we find that leading MLLMs and specialist OCR models largely fail to perceive these structural anomalies, creating a critical bottleneck for both VTR evaluation and RL-based optimization. As a result, even state-of-the-art generators (e.g., SeedDream4.0, Qwen-Image) still struggle to render structurally faithful text. To address this, we propose TextPecker, a plug-and-play structural anomaly perceptive RL strategy that mitigates noisy reward signals and works with any textto-image generator. To enable this capability, we construct a recognition dataset with character-level structural-anomaly annotations and develop a stroke-editing synthesis engine to expand structural-error coverage. Experiments show that TextPecker consistently improves diverse text-to-image models; even on the well-optimized Qwen-Image, it significantly yields average gains of 4% in structural fidelity and 8.7% in semantic alignment for Chinese text rendering, establishing a new state-of-the-art in high-fidelity VTR. Our work fills a gap in VTR optimization, providing a foundational step towards reliable and structural faithful visual text generation.