Restauración de Imágenes Consciente del Texto con Modelos de Difusión
Text-Aware Image Restoration with Diffusion Models
June 11, 2025
Autores: Jaewon Min, Jin Hyeon Kim, Paul Hyunbin Cho, Jaeeun Lee, Jihye Park, Minkyu Park, Sangpil Kim, Hyunhee Park, Seungryong Kim
cs.AI
Resumen
La restauración de imágenes tiene como objetivo recuperar imágenes degradadas. Sin embargo, los métodos de restauración basados en difusión existentes, a pesar de su gran éxito en la restauración de imágenes naturales, a menudo tienen dificultades para reconstruir fielmente las regiones textuales en imágenes degradadas. Estos métodos frecuentemente generan patrones similares a texto que son plausibles pero incorrectos, un fenómeno al que nos referimos como alucinación texto-imagen. En este artículo, presentamos la Restauración de Imágenes Consciente del Texto (TAIR, por sus siglas en inglés), una nueva tarea de restauración que requiere la recuperación simultánea de contenidos visuales y fidelidad textual. Para abordar esta tarea, presentamos SA-Text, un conjunto de datos de referencia a gran escala que contiene 100K imágenes de escenas de alta calidad, densamente anotadas con instancias de texto diversas y complejas. Además, proponemos un marco de difusión multitarea, llamado TeReDiff, que integra características internas de los modelos de difusión en un módulo de detección de texto, permitiendo que ambos componentes se beneficien de un entrenamiento conjunto. Esto permite la extracción de representaciones textuales ricas, que se utilizan como indicaciones en los pasos subsiguientes de eliminación de ruido. Experimentos exhaustivos demuestran que nuestro enfoque supera consistentemente a los métodos de restauración más avanzados, logrando mejoras significativas en la precisión del reconocimiento de texto. Consulte nuestra página del proyecto: https://cvlab-kaist.github.io/TAIR/.
English
Image restoration aims to recover degraded images. However, existing
diffusion-based restoration methods, despite great success in natural image
restoration, often struggle to faithfully reconstruct textual regions in
degraded images. Those methods frequently generate plausible but incorrect
text-like patterns, a phenomenon we refer to as text-image hallucination. In
this paper, we introduce Text-Aware Image Restoration (TAIR), a novel
restoration task that requires the simultaneous recovery of visual contents and
textual fidelity. To tackle this task, we present SA-Text, a large-scale
benchmark of 100K high-quality scene images densely annotated with diverse and
complex text instances. Furthermore, we propose a multi-task diffusion
framework, called TeReDiff, that integrates internal features from diffusion
models into a text-spotting module, enabling both components to benefit from
joint training. This allows for the extraction of rich text representations,
which are utilized as prompts in subsequent denoising steps. Extensive
experiments demonstrate that our approach consistently outperforms
state-of-the-art restoration methods, achieving significant gains in text
recognition accuracy. See our project page: https://cvlab-kaist.github.io/TAIR/