Restauration d'images basée sur le texte avec des modèles de diffusion
Text-Aware Image Restoration with Diffusion Models
June 11, 2025
papers.authors: Jaewon Min, Jin Hyeon Kim, Paul Hyunbin Cho, Jaeeun Lee, Jihye Park, Minkyu Park, Sangpil Kim, Hyunhee Park, Seungryong Kim
cs.AI
papers.abstract
La restauration d'images vise à récupérer des images dégradées. Cependant, les méthodes de restauration basées sur la diffusion, bien que très performantes dans la restauration d'images naturelles, peinent souvent à reconstruire fidèlement les régions textuelles dans les images dégradées. Ces méthodes génèrent fréquemment des motifs textuels plausibles mais incorrects, un phénomène que nous appelons hallucination texte-image. Dans cet article, nous introduisons la restauration d'images consciente du texte (Text-Aware Image Restoration, TAIR), une nouvelle tâche de restauration qui exige la récupération simultanée des contenus visuels et de la fidélité textuelle. Pour relever ce défi, nous présentons SA-Text, un benchmark à grande échelle de 100 000 images de scènes de haute qualité, annotées de manière dense avec des instances de texte diverses et complexes. De plus, nous proposons un cadre de diffusion multi-tâches, appelé TeReDiff, qui intègre les caractéristiques internes des modèles de diffusion dans un module de détection de texte, permettant aux deux composants de bénéficier d'un entraînement conjoint. Cela permet l'extraction de représentations textuelles riches, utilisées comme incitations dans les étapes de débruitage ultérieures. Des expériences approfondies démontrent que notre approche surpasse systématiquement les méthodes de restauration de pointe, obtenant des gains significatifs en précision de reconnaissance de texte. Consultez notre page de projet : https://cvlab-kaist.github.io/TAIR/
English
Image restoration aims to recover degraded images. However, existing
diffusion-based restoration methods, despite great success in natural image
restoration, often struggle to faithfully reconstruct textual regions in
degraded images. Those methods frequently generate plausible but incorrect
text-like patterns, a phenomenon we refer to as text-image hallucination. In
this paper, we introduce Text-Aware Image Restoration (TAIR), a novel
restoration task that requires the simultaneous recovery of visual contents and
textual fidelity. To tackle this task, we present SA-Text, a large-scale
benchmark of 100K high-quality scene images densely annotated with diverse and
complex text instances. Furthermore, we propose a multi-task diffusion
framework, called TeReDiff, that integrates internal features from diffusion
models into a text-spotting module, enabling both components to benefit from
joint training. This allows for the extraction of rich text representations,
which are utilized as prompts in subsequent denoising steps. Extensive
experiments demonstrate that our approach consistently outperforms
state-of-the-art restoration methods, achieving significant gains in text
recognition accuracy. See our project page: https://cvlab-kaist.github.io/TAIR/