ChatPaper.aiChatPaper

TextPecker: 視覚的テキストレンダリング強化のための構造的異常定量化による報酬付与

TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

February 24, 2026
著者: Hanshen Zhu, Yuliang Liu, Xuecheng Wu, An-Lan Wang, Hao Feng, Dingkang Yang, Chao Feng, Can Huang, Jingqun Tang, Xiang Bai
cs.AI

要旨

視覚的テキストレンダリング(VTR)は、テキストから画像を生成する分野において依然として重要な課題であり、高度なモデルであっても歪み、ぼやけ、位置ずれなどの構造的な異常を伴うテキストを生成することが多い。しかし、主要なMLLMや専門的なOCRモデルの多くは、こうした構造的異常をほとんど感知できないことが判明しており、VTRの評価と強化学習(RL)に基づく最適化の両方にとって重大なボトルネックとなっている。その結果、最先端の生成モデル(例:SeedDream4.0, Qwen-Image)でさえ、構造的に正確なテキストを描画するのに苦戦している。この問題に対処するため、我々はTextPeckerを提案する。これは、ノイジーな報酬信号を軽減し、任意のテキスト画像生成モデルと連携可能な、プラグアンドプレイ方式の構造的異常感知RL戦略である。この能力を実現するために、文字レベルの構造的異常注釈を付加した認識データセットを構築し、構造的誤りのカバレッジを拡大するストローク編集合成エンジンを開発した。実験により、TextPeckerが多様なテキスト画像モデルを一貫して改善することが示されている。最適化が十分に行われているQwen-Imageにおいてさえ、中国語テキストレンダリングで構造的忠実度が平均4%、意味的整合性が平均8.7%大幅に向上し、高忠実度VTRの新たな最高性能を確立した。本研究は、VTR最適化における空白を埋め、信頼性が高く構造的に正確な視覚的テキスト生成に向けた基礎的な一歩を提供する。
English
Visual Text Rendering (VTR) remains a critical challenge in text-to-image generation, where even advanced models frequently produce text with structural anomalies such as distortion, blurriness, and misalignment. However, we find that leading MLLMs and specialist OCR models largely fail to perceive these structural anomalies, creating a critical bottleneck for both VTR evaluation and RL-based optimization. As a result, even state-of-the-art generators (e.g., SeedDream4.0, Qwen-Image) still struggle to render structurally faithful text. To address this, we propose TextPecker, a plug-and-play structural anomaly perceptive RL strategy that mitigates noisy reward signals and works with any textto-image generator. To enable this capability, we construct a recognition dataset with character-level structural-anomaly annotations and develop a stroke-editing synthesis engine to expand structural-error coverage. Experiments show that TextPecker consistently improves diverse text-to-image models; even on the well-optimized Qwen-Image, it significantly yields average gains of 4% in structural fidelity and 8.7% in semantic alignment for Chinese text rendering, establishing a new state-of-the-art in high-fidelity VTR. Our work fills a gap in VTR optimization, providing a foundational step towards reliable and structural faithful visual text generation.
PDF12March 28, 2026