ChatPaper.aiChatPaper

PRISM: Priorrectificatie en onzekerheidsbewuste structuurmodellering voor diffusiegebaseerde tekstbeeld-superresolutie

PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution

May 13, 2026
Auteurs: Zihang Xu, Xiaoyang Liu, Zheng Chen, Yulun Zhang, Xiaokang Yang
cs.AI

Samenvatting

Tekstbeeld superresolutie (Text-SR) vereist meer dan alleen visueel aannemelijke detailsynthese: kleine fouten in de slagtopologie kunnen de karakteridentiteit veranderen en de leesbaarheid aantasten. Bestaande methoden verbeteren de tekstgetrouwheid met sterkere herkenningsgebaseerde of generatieve voorkennis, maar zij blijven geconfronteerd met twee onopgeloste uitdagingen onder ernstige degradatie: de tekstconditie die uit invoer van lage kwaliteit wordt geëxtraheerd kan zelf onbetrouwbaar zijn, en een aannemelijke globale voorkennis bepaalt niet volledig de fijnmazige slagranden. Wij presenteren PRISM, een op éénstapsdiffusie gebaseerd Text-SR-raamwerk dat deze twee uitdagingen aanpakt door middel van Flow-Matching Prior Rectification (FMPR) en een Structure-guided Uncertainty-aware Residual Encoder (SURE). FMPR construeert een bevoorrechte trainingsprior uit gepaarde latenten van lage en hoge kwaliteit en leert een stroommatching die gedegradeerde inbeddingen naar deze herstellingsgerichte priorruimte transporteert, wat leidt tot nauwkeurigere en betrouwbaardere globale tekststuring. SURE voorspelt verder onzekerheidsbewuste structurele residuen om betrouwbaar lokaal randbewijs selectief op te nemen, terwijl ambigue slagaanwijzingen worden onderdrukt. Samen maken deze componenten expliciete globale priorcorrectie en lokale structuurverfijning mogelijk binnen een enkele diffusiehersteldoorgang. Experimenten op zowel synthetische als realistische benchmarks tonen aan dat PRISM state-of-the-art prestaties bereikt met inferentie op millisecondefniveau. Onze dataset en code zullen beschikbaar zijn op https://github.com/faithxuz/PRISM.
English
Text image super-resolution (Text-SR) requires more than visually plausible detail synthesis: slight errors in stroke topology may alter character identity and break readability. Existing methods improve text fidelity with stronger recognition-based or generative priors, yet they still face two unresolved challenges under severe degradation: the text condition extracted from low-quality inputs can itself be unreliable, and a plausible global prior does not fully determine fine-grained stroke boundaries. We present PRISM, a single-step diffusion-based Text-SR framework that addresses these two challenges through Flow-Matching Prior Rectification (FMPR) and a Structure-guided Uncertainty-aware Residual Encoder (SURE). FMPR constructs a privileged training-time prior from paired low-quality/high-quality latents and learns a flow matching that transports degraded embeddings toward this restoration-oriented prior space, yielding more accurate and reliable global text guidance. SURE further predicts uncertainty-aware structural residuals to selectively absorb reliable local boundary evidence while suppressing ambiguous stroke cues. Together, these components enable explicit global prior rectification and local structure refinement within a single diffusion restoration pass. Experiments on both synthetic and real-world benchmarks show that PRISM achieves state-of-the-art performance with millisecond-level inference. Our dataset and code will be available at https://github.com/faithxuz/PRISM.