ChatPaper.aiChatPaper

Beeldrestauratie met Bewustzijn van Tekst met Diffusiemodellen

Text-Aware Image Restoration with Diffusion Models

June 11, 2025
Auteurs: Jaewon Min, Jin Hyeon Kim, Paul Hyunbin Cho, Jaeeun Lee, Jihye Park, Minkyu Park, Sangpil Kim, Hyunhee Park, Seungryong Kim
cs.AI

Samenvatting

Beeldrestauratie heeft als doel gedegradeerde afbeeldingen te herstellen. Bestaande, op diffusie gebaseerde restauratiemethoden, ondanks hun grote succes bij het herstellen van natuurlijke afbeeldingen, hebben echter vaak moeite om tekstuele regio's in gedegradeerde afbeeldingen nauwkeurig te reconstrueren. Deze methoden genereren vaak geloofwaardige maar incorrecte tekstachtige patronen, een fenomeen dat we tekst-beeld hallucinatie noemen. In dit artikel introduceren we Text-Aware Image Restoration (TAIR), een nieuwe restauratietaak die het gelijktijdig herstellen van visuele inhoud en tekstuele nauwkeurigheid vereist. Om deze taak aan te pakken, presenteren we SA-Text, een grootschalige benchmark van 100K hoogwaardige scène-afbeeldingen die dicht geannoteerd zijn met diverse en complexe tekstinstanties. Verder stellen we een multi-task diffusiekader voor, genaamd TeReDiff, dat interne kenmerken van diffusiemodellen integreert in een tekstspottingmodule, waardoor beide componenten kunnen profiteren van gezamenlijke training. Dit maakt het mogelijk om rijke tekstrepresentaties te extraheren, die worden gebruikt als prompts in latere denoising-stappen. Uitgebreide experimenten tonen aan dat onze aanpak consistent beter presteert dan state-of-the-art restauratiemethoden, met aanzienlijke verbeteringen in de nauwkeurigheid van tekstherkenning. Zie onze projectpagina: https://cvlab-kaist.github.io/TAIR/
English
Image restoration aims to recover degraded images. However, existing diffusion-based restoration methods, despite great success in natural image restoration, often struggle to faithfully reconstruct textual regions in degraded images. Those methods frequently generate plausible but incorrect text-like patterns, a phenomenon we refer to as text-image hallucination. In this paper, we introduce Text-Aware Image Restoration (TAIR), a novel restoration task that requires the simultaneous recovery of visual contents and textual fidelity. To tackle this task, we present SA-Text, a large-scale benchmark of 100K high-quality scene images densely annotated with diverse and complex text instances. Furthermore, we propose a multi-task diffusion framework, called TeReDiff, that integrates internal features from diffusion models into a text-spotting module, enabling both components to benefit from joint training. This allows for the extraction of rich text representations, which are utilized as prompts in subsequent denoising steps. Extensive experiments demonstrate that our approach consistently outperforms state-of-the-art restoration methods, achieving significant gains in text recognition accuracy. See our project page: https://cvlab-kaist.github.io/TAIR/
PDF352June 13, 2025