PRISM: Rectificación de Prior y Modelado de Estructura Consciente de la Incertidumbre para Superresolución de Imágenes de Texto Basada en Difusión

Resumen

La superresolución de texto (Text-SR) requiere más que una mera síntesis visualmente plausible de detalles: pequeños errores en la topología de los trazos pueden alterar la identidad de los caracteres y romper la legibilidad. Los métodos existentes mejoran la fidelidad del texto mediante prioridades más sólidas basadas en reconocimiento o generativas, pero aún enfrentan dos desafíos no resueltos bajo degradación severa: la condición de texto extraída de entradas de baja calidad puede ser en sí misma poco fiable, y una prioridad global plausible no determina por completo los límites finos de los trazos. Presentamos PRISM, un marco de Text-SR basado en difusión de un solo paso que aborda estos dos desafíos mediante la Rectificación de Prioridad por Flujo Matching (FMPR) y un Codificador de Residuos Consciente de Incertidumbre Guiado por Estructura (SURE). FMPR construye una prioridad privilegiada en tiempo de entrenamiento a partir de latentes emparejados de baja y alta calidad, y aprende un flujo matching que transporta las incrustaciones degradadas hacia ese espacio de prioridad orientado a la restauración, proporcionando una guía textual global más precisa y fiable. SURE predice además residuos estructurales conscientes de la incertidumbre para absorber selectivamente evidencia local fiable de contornos, suprimiendo al mismo tiempo las señales ambiguas de trazos. En conjunto, estos componentes permiten una rectificación explícita de la prioridad global y un refinamiento estructural local dentro de un único paso de restauración por difusión. Los experimentos en bases de referencia tanto sintéticas como del mundo real muestran que PRISM logra un rendimiento de última generación con inferencia a nivel de milisegundos. Nuestro conjunto de datos y código estarán disponibles en https://github.com/faithxuz/PRISM.

English

Text image super-resolution (Text-SR) requires more than visually plausible detail synthesis: slight errors in stroke topology may alter character identity and break readability. Existing methods improve text fidelity with stronger recognition-based or generative priors, yet they still face two unresolved challenges under severe degradation: the text condition extracted from low-quality inputs can itself be unreliable, and a plausible global prior does not fully determine fine-grained stroke boundaries. We present PRISM, a single-step diffusion-based Text-SR framework that addresses these two challenges through Flow-Matching Prior Rectification (FMPR) and a Structure-guided Uncertainty-aware Residual Encoder (SURE). FMPR constructs a privileged training-time prior from paired low-quality/high-quality latents and learns a flow matching that transports degraded embeddings toward this restoration-oriented prior space, yielding more accurate and reliable global text guidance. SURE further predicts uncertainty-aware structural residuals to selectively absorb reliable local boundary evidence while suppressing ambiguous stroke cues. Together, these components enable explicit global prior rectification and local structure refinement within a single diffusion restoration pass. Experiments on both synthetic and real-world benchmarks show that PRISM achieves state-of-the-art performance with millisecond-level inference. Our dataset and code will be available at https://github.com/faithxuz/PRISM.