PRISM: Retificação de Priores e Modelagem de Estrutura Ciente de Incerteza para Super-Resolução de Imagens de Texto Baseada em Difusão

Resumo

A super-resolução de imagens de texto (Text-SR) exige mais do que a síntese visualmente plausível de detalhes: pequenos erros na topologia dos traços podem alterar a identidade do caractere e comprometer a legibilidade. Métodos existentes melhoram a fidelidade do texto com priores mais fortes baseados em reconhecimento ou gerativos, mas ainda enfrentam dois desafios não resolvidos sob degradação severa: a condição de texto extraída de entradas de baixa qualidade pode ser, ela própria, não confiável, e um prior global plausível não determina completamente os limites finos dos traços. Apresentamos o PRISM, um framework de Text-SR baseado em difusão de etapa única que aborda esses dois desafios por meio da Retificação de Prior por Correspondência de Fluxo (FMPR) e de um Codificador Residual Consciente de Incerteza Guiado por Estrutura (SURE). O FMPR constrói um prior privilegiado em tempo de treinamento a partir de latentes pareados de baixa/alta qualidade e aprende uma correspondência de fluxo que transporta embeddings degradados em direção a esse espaço de prior orientado à restauração, gerando uma orientação textual global mais precisa e confiável. O SURE ainda prevê resíduos estruturais conscientes de incerteza para absorver seletivamente evidências confiáveis de limites locais, suprimindo pistas ambíguas de traços. Juntos, esses componentes permitem retificação explícita de prior global e refinamento local de estrutura em uma única passagem de restauração por difusão. Experimentos em benchmarks sintéticos e do mundo real mostram que o PRISM alcança desempenho estado-da-arte com inferência em nível de milissegundos. Nosso conjunto de dados e código estarão disponíveis em https://github.com/faithxuz/PRISM.

English

Text image super-resolution (Text-SR) requires more than visually plausible detail synthesis: slight errors in stroke topology may alter character identity and break readability. Existing methods improve text fidelity with stronger recognition-based or generative priors, yet they still face two unresolved challenges under severe degradation: the text condition extracted from low-quality inputs can itself be unreliable, and a plausible global prior does not fully determine fine-grained stroke boundaries. We present PRISM, a single-step diffusion-based Text-SR framework that addresses these two challenges through Flow-Matching Prior Rectification (FMPR) and a Structure-guided Uncertainty-aware Residual Encoder (SURE). FMPR constructs a privileged training-time prior from paired low-quality/high-quality latents and learns a flow matching that transports degraded embeddings toward this restoration-oriented prior space, yielding more accurate and reliable global text guidance. SURE further predicts uncertainty-aware structural residuals to selectively absorb reliable local boundary evidence while suppressing ambiguous stroke cues. Together, these components enable explicit global prior rectification and local structure refinement within a single diffusion restoration pass. Experiments on both synthetic and real-world benchmarks show that PRISM achieves state-of-the-art performance with millisecond-level inference. Our dataset and code will be available at https://github.com/faithxuz/PRISM.