Восстановление изображений с учетом текста с использованием диффузионных моделей
Text-Aware Image Restoration with Diffusion Models
June 11, 2025
Авторы: Jaewon Min, Jin Hyeon Kim, Paul Hyunbin Cho, Jaeeun Lee, Jihye Park, Minkyu Park, Sangpil Kim, Hyunhee Park, Seungryong Kim
cs.AI
Аннотация
Восстановление изображений направлено на восстановление деградированных изображений. Однако существующие методы восстановления на основе диффузии, несмотря на значительные успехи в восстановлении естественных изображений, часто сталкиваются с трудностями в точном восстановлении текстовых областей в деградированных изображениях. Эти методы часто генерируют правдоподобные, но некорректные текстовые паттерны, явление, которое мы называем галлюцинацией текста и изображения. В данной статье мы представляем Text-Aware Image Restoration (TAIR), новую задачу восстановления, которая требует одновременного восстановления визуального содержимого и текстовой точности. Для решения этой задачи мы представляем SA-Text, крупномасштабный бенчмарк из 100K высококачественных сценовых изображений, плотно аннотированных разнообразными и сложными текстовыми элементами. Кроме того, мы предлагаем многозадачный диффузионный фреймворк, называемый TeReDiff, который интегрирует внутренние особенности моделей диффузии в модуль обнаружения текста, позволяя обоим компонентам извлекать выгоду из совместного обучения. Это позволяет извлекать богатые текстовые представления, которые используются в качестве подсказок на последующих этапах шумоподавления. Многочисленные эксперименты демонстрируют, что наш подход стабильно превосходит современные методы восстановления, достигая значительных улучшений в точности распознавания текста. См. нашу страницу проекта: https://cvlab-kaist.github.io/TAIR/
English
Image restoration aims to recover degraded images. However, existing
diffusion-based restoration methods, despite great success in natural image
restoration, often struggle to faithfully reconstruct textual regions in
degraded images. Those methods frequently generate plausible but incorrect
text-like patterns, a phenomenon we refer to as text-image hallucination. In
this paper, we introduce Text-Aware Image Restoration (TAIR), a novel
restoration task that requires the simultaneous recovery of visual contents and
textual fidelity. To tackle this task, we present SA-Text, a large-scale
benchmark of 100K high-quality scene images densely annotated with diverse and
complex text instances. Furthermore, we propose a multi-task diffusion
framework, called TeReDiff, that integrates internal features from diffusion
models into a text-spotting module, enabling both components to benefit from
joint training. This allows for the extraction of rich text representations,
which are utilized as prompts in subsequent denoising steps. Extensive
experiments demonstrate that our approach consistently outperforms
state-of-the-art restoration methods, achieving significant gains in text
recognition accuracy. See our project page: https://cvlab-kaist.github.io/TAIR/