PRISM: Prior-Korrektur und unsicherheitsbewusste Strukturmodellierung für diffusionsbasierte Textbild-Superauflösung

Zusammenfassung

Text-Image-Super-Resolution (Text-SR) erfordert mehr als nur visuell plausible Detailsynthese: Geringfügige Fehler in der Strich-Topologie können die Zeichenidentität verändern und die Lesbarkeit beeinträchtigen. Bestehende Methoden verbessern die Texttreue durch stärkere erkennungsbasierte oder generative Vorwissen, stehen jedoch unter starker Degradation noch vor zwei ungelösten Herausforderungen: Der aus niedrigqualitativen Eingaben extrahierte Textzustand kann selbst unzuverlässig sein, und ein plausibles globales Vorwissen bestimmt nicht vollständig die feinkörnigen Strichgrenzen. Wir stellen PRISM vor, ein Diffusions-basiertes Text-SR-Framework mit einem einzigen Schritt, das diese beiden Herausforderungen durch Flow-Matching Prior Rectification (FMPR) und einen strukturgeführten unsicherheitsbewussten Residuen-Encoder (SURE) adressiert. FMPR konstruiert ein privilegiertes Vorwissen während des Trainings aus gepaarten niedrigqualitativen/hochqualitativen latenten Repräsentationen und lernt einen Flussabgleich, der degradierte Einbettungen in diesen wiederherstellungsorientierten Vorwissensraum überführt, was eine genauere und zuverlässigere globale Textführung ermöglicht. SURE sagt zudem unsicherheitsbewusste strukturelle Residuen vorher, um zuverlässige lokale Grenzinformationen selektiv zu absorbieren und gleichzeitig mehrdeutige Strichhinweise zu unterdrücken. Zusammen ermöglichen diese Komponenten eine explizite globale Vorwissen-Rektifikation und lokale Strukturverfeinerung in einem einzigen Diffusions-Wiederherstellungsdurchlauf. Experimente sowohl auf synthetischen als auch auf realen Benchmarks zeigen, dass PRISM mit Inferenz im Millisekundenbereich eine Spitzenleistung erzielt. Unser Datensatz und Code werden unter https://github.com/faithxuz/PRISM verfügbar sein.

English

Text image super-resolution (Text-SR) requires more than visually plausible detail synthesis: slight errors in stroke topology may alter character identity and break readability. Existing methods improve text fidelity with stronger recognition-based or generative priors, yet they still face two unresolved challenges under severe degradation: the text condition extracted from low-quality inputs can itself be unreliable, and a plausible global prior does not fully determine fine-grained stroke boundaries. We present PRISM, a single-step diffusion-based Text-SR framework that addresses these two challenges through Flow-Matching Prior Rectification (FMPR) and a Structure-guided Uncertainty-aware Residual Encoder (SURE). FMPR constructs a privileged training-time prior from paired low-quality/high-quality latents and learns a flow matching that transports degraded embeddings toward this restoration-oriented prior space, yielding more accurate and reliable global text guidance. SURE further predicts uncertainty-aware structural residuals to selectively absorb reliable local boundary evidence while suppressing ambiguous stroke cues. Together, these components enable explicit global prior rectification and local structure refinement within a single diffusion restoration pass. Experiments on both synthetic and real-world benchmarks show that PRISM achieves state-of-the-art performance with millisecond-level inference. Our dataset and code will be available at https://github.com/faithxuz/PRISM.