PRISM : Rectification des a priori et modélisation de structure consciente de l’incertitude pour la super-résolution d’images de texte par diffusion

Résumé

La super-résolution d'images de texte (Text-SR) nécessite plus qu'une synthèse de détails visuellement plausible : de légères erreurs dans la topologie des traits peuvent modifier l'identité des caractères et nuire à la lisibilité. Les méthodes existantes améliorent la fidélité du texte avec des a priori plus forts basés sur la reconnaissance ou génératifs, mais elles sont toujours confrontées à deux défis non résolus en cas de dégradation sévère : la condition textuelle extraite d'entrées de faible qualité peut elle-même être peu fiable, et un a priori global plausible ne détermine pas entièrement les limites fines des traits. Nous présentons PRISM, un cadre de Text-SR basé sur la diffusion en une seule étape qui répond à ces deux défis grâce à la rectification d'a priori par appariement de flux (Flow-Matching Prior Rectification, FMPR) et à un encodeur résiduel conscient de l'incertitude guidé par la structure (Structure-guided Uncertainty-aware Residual Encoder, SURE). FMPR construit un a priori privilégié en phase d'apprentissage à partir de latents appariés de faible/haute qualité et apprend un appariement de flux qui transporte les embeddings dégradés vers cet espace d'a priori orienté vers la restauration, produisant un guidage textuel global plus précis et plus fiable. SURE prédit en outre des résidus structurels conscients de l'incertitude pour absorber sélectivement les preuves fiables de limites locales tout en supprimant les indices ambigus de traits. Ensemble, ces composants permettent une rectification explicite de l'a priori global et un raffinement local de la structure en une seule passe de restauration par diffusion. Les expériences sur des benchmarks synthétiques et réels montrent que PRISM atteint des performances de pointe avec une inférence au niveau de la milliseconde. Notre jeu de données et notre code seront disponibles à l'adresse https://github.com/faithxuz/PRISM.

English

Text image super-resolution (Text-SR) requires more than visually plausible detail synthesis: slight errors in stroke topology may alter character identity and break readability. Existing methods improve text fidelity with stronger recognition-based or generative priors, yet they still face two unresolved challenges under severe degradation: the text condition extracted from low-quality inputs can itself be unreliable, and a plausible global prior does not fully determine fine-grained stroke boundaries. We present PRISM, a single-step diffusion-based Text-SR framework that addresses these two challenges through Flow-Matching Prior Rectification (FMPR) and a Structure-guided Uncertainty-aware Residual Encoder (SURE). FMPR constructs a privileged training-time prior from paired low-quality/high-quality latents and learns a flow matching that transports degraded embeddings toward this restoration-oriented prior space, yielding more accurate and reliable global text guidance. SURE further predicts uncertainty-aware structural residuals to selectively absorb reliable local boundary evidence while suppressing ambiguous stroke cues. Together, these components enable explicit global prior rectification and local structure refinement within a single diffusion restoration pass. Experiments on both synthetic and real-world benchmarks show that PRISM achieves state-of-the-art performance with millisecond-level inference. Our dataset and code will be available at https://github.com/faithxuz/PRISM.