TextPecker: Belohnung der Quantifizierung struktureller Anomalien zur Verbesserung des visuellen Textrenderings
TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering
February 24, 2026
Autoren: Hanshen Zhu, Yuliang Liu, Xuecheng Wu, An-Lan Wang, Hao Feng, Dingkang Yang, Chao Feng, Can Huang, Jingqun Tang, Xiang Bai
cs.AI
Zusammenfassung
Visuelle Textdarstellung (VTR) bleibt eine kritische Herausforderung in der Text-zu-Bild-Generierung, bei der selbst fortschrittliche Modelle häufig Text mit strukturellen Anomalien wie Verzerrungen, Unschärfe und Fehlausrichtung erzeugen. Wir stellen jedoch fest, dass führende MLLMs und spezialisierte OCR-Modelle größtenteils nicht in der Lage sind, diese strukturellen Anomalien wahrzunehmen, was einen kritischen Engpass sowohl für die VTR-Bewertung als auch für die RL-basierte Optimierung darstellt. Infolgedessen kämpfen selbst state-of-the-art Generatoren (z.B. SeedDream4.0, Qwen-Image) immer noch damit, strukturell korrekten Text darzustellen. Um dies zu lösen, schlagen wir TextPecker vor, eine Plug-and-Play-RL-Strategie zur Wahrnehmung struktureller Anomalien, die verrauschte Belohnungssignale mildert und mit jedem Text-zu-Bild-Generator funktioniert. Um diese Fähigkeit zu ermöglichen, erstellen wir einen Erkennungsdatensatz mit Annotationen struktureller Anomalien auf Zeichenebene und entwickeln eine Stroke-Editing-Synthese-Engine, um die Abdeckung struktureller Fehler zu erweitern. Experimente zeigen, dass TextPecker konsistent verschiedene Text-zu-Bild-Modelle verbessert; selbst beim bereits gut optimierten Qwen-Image erzielt es signifikante durchschnittliche Steigerungen von 4 % in der strukturellen Treue und 8,7 % in der semantischen Übereinstimmung für die chinesische Textdarstellung und etabliert damit einen neuen State-of-the-Art in der hochpräzisen VTR. Unsere Arbeit schließt eine Lücke in der VTR-Optimierung und bietet einen grundlegenden Schritt hin zu einer zuverlässigen und strukturell korrekten visuellen Texterzeugung.
English
Visual Text Rendering (VTR) remains a critical challenge in text-to-image generation, where even advanced models frequently produce text with structural anomalies such as distortion, blurriness, and misalignment. However, we find that leading MLLMs and specialist OCR models largely fail to perceive these structural anomalies, creating a critical bottleneck for both VTR evaluation and RL-based optimization. As a result, even state-of-the-art generators (e.g., SeedDream4.0, Qwen-Image) still struggle to render structurally faithful text. To address this, we propose TextPecker, a plug-and-play structural anomaly perceptive RL strategy that mitigates noisy reward signals and works with any textto-image generator. To enable this capability, we construct a recognition dataset with character-level structural-anomaly annotations and develop a stroke-editing synthesis engine to expand structural-error coverage. Experiments show that TextPecker consistently improves diverse text-to-image models; even on the well-optimized Qwen-Image, it significantly yields average gains of 4% in structural fidelity and 8.7% in semantic alignment for Chinese text rendering, establishing a new state-of-the-art in high-fidelity VTR. Our work fills a gap in VTR optimization, providing a foundational step towards reliable and structural faithful visual text generation.