TextPecker: Cuantificación de Anomalías Estructurales Recompensada para Mejorar la Representación Visual de Texto
TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering
February 24, 2026
Autores: Hanshen Zhu, Yuliang Liu, Xuecheng Wu, An-Lan Wang, Hao Feng, Dingkang Yang, Chao Feng, Can Huang, Jingqun Tang, Xiang Bai
cs.AI
Resumen
La representación visual de texto (VTR) sigue siendo un desafío crítico en la generación de texto a imagen, donde incluso los modelos avanzados producen con frecuencia texto con anomalías estructurales como distorsión, desenfoque y desalineación. Sin embargo, descubrimos que los principales MLLM y los modelos especializados de OCR no logran percibir en gran medida estas anomalías estructurales, creando un cuello de botella crítico tanto para la evaluación de VTR como para la optimización basada en RL. Como resultado, incluso los generadores de última generación (por ejemplo, SeedDream4.0, Qwen-Image) aún luchan por representar texto estructuralmente fiel. Para abordar esto, proponemos TextPecker, una estrategia de RL perceptiva de anomalías estructurales plug-and-play que mitiga las señales de recompensa ruidosas y funciona con cualquier generador de texto a imagen. Para habilitar esta capacidad, construimos un conjunto de datos de reconocimiento con anotaciones de anomalías estructurales a nivel de carácter y desarrollamos un motor de síntesis por edición de trazos para ampliar la cobertura de errores estructurales. Los experimentos muestran que TextPecker mejora consistentemente diversos modelos de texto a imagen; incluso en el bien optimizado Qwen-Image, produce ganancias promedio significativas del 4% en fidelidad estructural y del 8.7% en alineación semántica para la representación de texto en chino, estableciendo un nuevo estado del arte en VTR de alta fidelidad. Nuestro trabajo llena un vacío en la optimización de VTR, proporcionando un paso fundamental hacia la generación de texto visual confiable y estructuralmente fiel.
English
Visual Text Rendering (VTR) remains a critical challenge in text-to-image generation, where even advanced models frequently produce text with structural anomalies such as distortion, blurriness, and misalignment. However, we find that leading MLLMs and specialist OCR models largely fail to perceive these structural anomalies, creating a critical bottleneck for both VTR evaluation and RL-based optimization. As a result, even state-of-the-art generators (e.g., SeedDream4.0, Qwen-Image) still struggle to render structurally faithful text. To address this, we propose TextPecker, a plug-and-play structural anomaly perceptive RL strategy that mitigates noisy reward signals and works with any textto-image generator. To enable this capability, we construct a recognition dataset with character-level structural-anomaly annotations and develop a stroke-editing synthesis engine to expand structural-error coverage. Experiments show that TextPecker consistently improves diverse text-to-image models; even on the well-optimized Qwen-Image, it significantly yields average gains of 4% in structural fidelity and 8.7% in semantic alignment for Chinese text rendering, establishing a new state-of-the-art in high-fidelity VTR. Our work fills a gap in VTR optimization, providing a foundational step towards reliable and structural faithful visual text generation.