ChatPaper.aiChatPaper

TextPecker: 시각적 텍스트 렌더링 향상을 위한 구조적 이상치 정량화 기법

TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

February 24, 2026
저자: Hanshen Zhu, Yuliang Liu, Xuecheng Wu, An-Lan Wang, Hao Feng, Dingkang Yang, Chao Feng, Can Huang, Jingqun Tang, Xiang Bai
cs.AI

초록

시각적 텍스트 렌더링(VTR)은 텍스트-이미지 생성 분야에서 여전히 중요한 과제로 남아 있으며, 최신 모델들조차도 왜곡, 흐림, 정렬 불량 등의 구조적 이상이 있는 텍스트를 빈번히 생성합니다. 그러나 저희는 주요 MLLM 및 전문 OCR 모델들이 이러한 구조적 이상을 인지하지 못하는 경우가 많아, VTR 평가와 강화학습 기반 최적화에 있어 중요한 병목 현상을 초래한다는 사실을 발견했습니다. 그 결과, 최첨단 생성 모델(예: SeedDream4.0, Qwen-Image)도 구조적으로 정확한 텍스트를 렌더링하는 데 어려움을 겪고 있습니다. 이를 해결하기 위해 저희는 텍스트-이미지 생성기와 함께 작동하며 노이즈가 있는 보상 신호를 완화하는 플러그인 방식의 구조적 이상 인지 강화학습 전략인 TextPecker를 제안합니다. 이러한 기능을 구현하기 위해 문자 수준의 구조적 이상 주석이 포함된 인식 데이터셋을 구축하고 구조적 오류 범위를 확장하기 위한 스트로크 편집 합성 엔진을 개발했습니다. 실험 결과, TextPecker는 다양한 텍스트-이미지 모델의 성능을 지속적으로 향상시키는 것으로 나타났습니다. 특히 최적화가 잘 이루어진 Qwen-Image에서도 중국어 텍스트 렌더링 시 구조적 정확도가 평균 4%, 의미론적 일치도가 8.7% 크게 향상되어 고충실도 VTR 분야의 새로운 최첨단 기술을确立했습니다. 본 연구는 VTR 최적화의 공백을 메꾸며, 신뢰할 수 있고 구조적으로 정확한 시각적 텍스트 생성으로 나아가는 기초적인 단계를 제공합니다.
English
Visual Text Rendering (VTR) remains a critical challenge in text-to-image generation, where even advanced models frequently produce text with structural anomalies such as distortion, blurriness, and misalignment. However, we find that leading MLLMs and specialist OCR models largely fail to perceive these structural anomalies, creating a critical bottleneck for both VTR evaluation and RL-based optimization. As a result, even state-of-the-art generators (e.g., SeedDream4.0, Qwen-Image) still struggle to render structurally faithful text. To address this, we propose TextPecker, a plug-and-play structural anomaly perceptive RL strategy that mitigates noisy reward signals and works with any textto-image generator. To enable this capability, we construct a recognition dataset with character-level structural-anomaly annotations and develop a stroke-editing synthesis engine to expand structural-error coverage. Experiments show that TextPecker consistently improves diverse text-to-image models; even on the well-optimized Qwen-Image, it significantly yields average gains of 4% in structural fidelity and 8.7% in semantic alignment for Chinese text rendering, establishing a new state-of-the-art in high-fidelity VTR. Our work fills a gap in VTR optimization, providing a foundational step towards reliable and structural faithful visual text generation.
PDF12March 28, 2026