PRISM: 事前補正と不確実性を考慮した構造モデリングに基づく拡散ベーステキスト画像超解像
PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution
May 13, 2026
著者: Zihang Xu, Xiaoyang Liu, Zheng Chen, Yulun Zhang, Xiaokang Yang
cs.AI
要旨
テキスト画像超解像(Text-SR)には、視覚的に妥当な細部の合成以上のものが求められる。ストロークトポロジのわずかな誤りが文字の同一性を変え、可読性を損なう可能性があるからである。既存手法は、より強力な認識ベースまたは生成的事前分布を用いてテキストの忠実度を向上させているが、深刻な劣化下において依然として2つの未解決課題に直面している。低品質入力から抽出されたテキスト条件自体が信頼できない可能性があることと、妥当なグローバル事前分布だけでは細かなストローク境界を完全に決定できないことである。本稿では、これら2つの課題に対処する単一段階拡散ベースのText-SRフレームワークであるPRISMを提案する。PRISMは、Flow-Matching Prior Rectification(FMPR)とStructure-guided Uncertainty-aware Residual Encoder(SURE)を通じてこれを実現する。FMPRは、ペア化された低品質/高品質潜在変数から特権的な訓練時事前分布を構築し、劣化埋め込みをこの復元指向の事前空間に輸送するフローマッチングを学習することで、より正確で信頼性の高いグローバルテキストガイダンスを実現する。SUREはさらに、不確実性を考慮した構造的残差を予測し、曖昧なストローク手がかりを抑制しながら、信頼できる局所境界証拠を選択的に吸収する。これらの要素を組み合わせることで、単一の拡散復元パス内で明示的なグローバル事前分布修正と局所構造洗練を可能にする。合成ベンチマークと実世界ベンチマークの両方での実験により、PRISMがミリ秒レベルの推論で最先端の性能を達成することを示す。データセットとコードはhttps://github.com/faithxuz/PRISMで公開予定である。
English
Text image super-resolution (Text-SR) requires more than visually plausible detail synthesis: slight errors in stroke topology may alter character identity and break readability. Existing methods improve text fidelity with stronger recognition-based or generative priors, yet they still face two unresolved challenges under severe degradation: the text condition extracted from low-quality inputs can itself be unreliable, and a plausible global prior does not fully determine fine-grained stroke boundaries. We present PRISM, a single-step diffusion-based Text-SR framework that addresses these two challenges through Flow-Matching Prior Rectification (FMPR) and a Structure-guided Uncertainty-aware Residual Encoder (SURE). FMPR constructs a privileged training-time prior from paired low-quality/high-quality latents and learns a flow matching that transports degraded embeddings toward this restoration-oriented prior space, yielding more accurate and reliable global text guidance. SURE further predicts uncertainty-aware structural residuals to selectively absorb reliable local boundary evidence while suppressing ambiguous stroke cues. Together, these components enable explicit global prior rectification and local structure refinement within a single diffusion restoration pass. Experiments on both synthetic and real-world benchmarks show that PRISM achieves state-of-the-art performance with millisecond-level inference. Our dataset and code will be available at https://github.com/faithxuz/PRISM.