TextPecker: Quantificazione Strutturale delle Anomalie per Migliorare il Rendering Visivo del Testo

Abstract

La resa visiva del testo (VTR) rimane una sfida critica nella generazione di immagini da testo, dove anche i modelli più avanzati producono frequentemente testo con anomalie strutturali come distorsioni, sfocature e disallineamenti. Tuttavia, riscontriamo che i principali MLLM e i modelli OCR specializzati non riescono in larga misura a percepire queste anomalie strutturali, creando un collo di bottiglia critico sia per la valutazione della VTR che per l'ottimizzazione basata su RL. Di conseguenza, anche i generatori all'avanguardia (ad esempio, SeedDream4.0, Qwen-Image) continuano a lottare per produrre testo strutturalmente fedele. Per affrontare questo problema, proponiamo TextPecker, una strategia RL plug-and-play percettiva delle anomalie strutturali che mitiga i segnali di reward rumorosi e funziona con qualsiasi generatore di immagini da testo. Per abilitare questa capacità, abbiamo costruito un dataset di riconoscimento con annotazioni di anomalie strutturali a livello di carattere e sviluppato un motore di sintesi basato sull'editing dei tratti per ampliare la copertura degli errori strutturali. Gli esperimenti mostrano che TextPecker migliora costantemente modelli diversificati di generazione di immagini da testo; persino su Qwen-Image, già ben ottimizzato, si ottengono miglioramenti medi significativi del 4% nella fedeltà strutturale e dell'8,7% nell'allineamento semantico per la resa di testo cinese, stabilendo un nuovo stato dell'arte nella VTR ad alta fedeltà. Il nostro lavoro colma una lacuna nell'ottimizzazione della VTR, fornendo un passo fondamentale verso una generazione visiva del testo affidabile e strutturalmente fedele.

English

Visual Text Rendering (VTR) remains a critical challenge in text-to-image generation, where even advanced models frequently produce text with structural anomalies such as distortion, blurriness, and misalignment. However, we find that leading MLLMs and specialist OCR models largely fail to perceive these structural anomalies, creating a critical bottleneck for both VTR evaluation and RL-based optimization. As a result, even state-of-the-art generators (e.g., SeedDream4.0, Qwen-Image) still struggle to render structurally faithful text. To address this, we propose TextPecker, a plug-and-play structural anomaly perceptive RL strategy that mitigates noisy reward signals and works with any textto-image generator. To enable this capability, we construct a recognition dataset with character-level structural-anomaly annotations and develop a stroke-editing synthesis engine to expand structural-error coverage. Experiments show that TextPecker consistently improves diverse text-to-image models; even on the well-optimized Qwen-Image, it significantly yields average gains of 4% in structural fidelity and 8.7% in semantic alignment for Chinese text rendering, establishing a new state-of-the-art in high-fidelity VTR. Our work fills a gap in VTR optimization, providing a foundational step towards reliable and structural faithful visual text generation.

TextPecker: Quantificazione Strutturale delle Anomalie per Migliorare il Rendering Visivo del Testo

TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

Abstract

Support