PRISM: Коррекция априорной информации и моделирование структуры с учетом неопределенности для диффузионного сверхразрешения текстовых изображений

Аннотация

Сверхразрешение текстовых изображений (Text-SR) требует большего, чем визуально правдоподобный синтез деталей: незначительные ошибки в топологии штрихов могут изменить идентичность символов и нарушить читаемость. Существующие методы повышают точность текста за счет более сильных априорных данных на основе распознавания или генерации, однако они по-прежнему сталкиваются с двумя нерешенными проблемами при сильной деградации: текстовые условия, извлеченные из низкокачественных входных данных, сами по себе могут быть ненадежными, а правдоподобное глобальное априорное знание не полностью определяет мелкозернистые границы штрихов. Мы представляем PRISM — одношаговую диффузионную структуру для Text-SR, которая решает эти две проблемы с помощью коррекции априорных данных методом потокового согласования (Flow-Matching Prior Rectification, FMPR) и структурно-ориентированного энкодера остатков с учетом неопределенности (Structure-guided Uncertainty-aware Residual Encoder, SURE). FMPR строит привилегированное априорное знание времени обучения из парных низкокачественных/высококачественных латентных представлений и обучает потоковому согласованию, которое переносит деградированные вложения в это ориентированное на восстановление априорное пространство, обеспечивая более точное и надежное глобальное текстовое руководство. SURE дополнительно предсказывает структурные остатки с учетом неопределенности, чтобы избирательно поглощать надежные локальные граничные свидетельства, подавляя при этом неоднозначные признаки штрихов. Вместе эти компоненты обеспечивают явную коррекцию глобального априорного знания и уточнение локальной структуры в рамках одного прохода восстановления на основе диффузии. Эксперименты как на синтетических, так и на реальных эталонных наборах данных показывают, что PRISM достигает современной производительности с временем вывода на уровне миллисекунд. Наш набор данных и код будут доступны по адресу https://github.com/faithxuz/PRISM.

English

Text image super-resolution (Text-SR) requires more than visually plausible detail synthesis: slight errors in stroke topology may alter character identity and break readability. Existing methods improve text fidelity with stronger recognition-based or generative priors, yet they still face two unresolved challenges under severe degradation: the text condition extracted from low-quality inputs can itself be unreliable, and a plausible global prior does not fully determine fine-grained stroke boundaries. We present PRISM, a single-step diffusion-based Text-SR framework that addresses these two challenges through Flow-Matching Prior Rectification (FMPR) and a Structure-guided Uncertainty-aware Residual Encoder (SURE). FMPR constructs a privileged training-time prior from paired low-quality/high-quality latents and learns a flow matching that transports degraded embeddings toward this restoration-oriented prior space, yielding more accurate and reliable global text guidance. SURE further predicts uncertainty-aware structural residuals to selectively absorb reliable local boundary evidence while suppressing ambiguous stroke cues. Together, these components enable explicit global prior rectification and local structure refinement within a single diffusion restoration pass. Experiments on both synthetic and real-world benchmarks show that PRISM achieves state-of-the-art performance with millisecond-level inference. Our dataset and code will be available at https://github.com/faithxuz/PRISM.