ChatPaper.aiChatPaper

Ripristino delle Immagini Consapevole del Testo con Modelli di Diffusione

Text-Aware Image Restoration with Diffusion Models

June 11, 2025
Autori: Jaewon Min, Jin Hyeon Kim, Paul Hyunbin Cho, Jaeeun Lee, Jihye Park, Minkyu Park, Sangpil Kim, Hyunhee Park, Seungryong Kim
cs.AI

Abstract

Il ripristino delle immagini mira a recuperare immagini degradate. Tuttavia, i metodi di ripristino basati sulla diffusione, nonostante il grande successo nel ripristino di immagini naturali, spesso faticano a ricostruire fedelmente le regioni testuali nelle immagini degradate. Questi metodi generano frequentemente pattern simili al testo che sono plausibili ma errati, un fenomeno che definiamo allucinazione testo-immagine. In questo articolo, introduciamo il ripristino delle immagini con consapevolezza del testo (Text-Aware Image Restoration, TAIR), un nuovo compito di ripristino che richiede il recupero simultaneo dei contenuti visivi e della fedeltà testuale. Per affrontare questo compito, presentiamo SA-Text, un benchmark su larga scala di 100K immagini di scene di alta qualità densamente annotate con istanze di testo diverse e complesse. Inoltre, proponiamo un framework di diffusione multi-task, chiamato TeReDiff, che integra le caratteristiche interne dei modelli di diffusione in un modulo di rilevamento del testo, consentendo a entrambi i componenti di beneficiare di un addestramento congiunto. Ciò permette l'estrazione di rappresentazioni testuali ricche, che vengono utilizzate come prompt nei successivi passaggi di riduzione del rumore. Esperimenti estensivi dimostrano che il nostro approccio supera costantemente i metodi di ripristino all'avanguardia, ottenendo miglioramenti significativi nell'accuratezza del riconoscimento del testo. Visita la nostra pagina del progetto: https://cvlab-kaist.github.io/TAIR/
English
Image restoration aims to recover degraded images. However, existing diffusion-based restoration methods, despite great success in natural image restoration, often struggle to faithfully reconstruct textual regions in degraded images. Those methods frequently generate plausible but incorrect text-like patterns, a phenomenon we refer to as text-image hallucination. In this paper, we introduce Text-Aware Image Restoration (TAIR), a novel restoration task that requires the simultaneous recovery of visual contents and textual fidelity. To tackle this task, we present SA-Text, a large-scale benchmark of 100K high-quality scene images densely annotated with diverse and complex text instances. Furthermore, we propose a multi-task diffusion framework, called TeReDiff, that integrates internal features from diffusion models into a text-spotting module, enabling both components to benefit from joint training. This allows for the extraction of rich text representations, which are utilized as prompts in subsequent denoising steps. Extensive experiments demonstrate that our approach consistently outperforms state-of-the-art restoration methods, achieving significant gains in text recognition accuracy. See our project page: https://cvlab-kaist.github.io/TAIR/
PDF342June 13, 2025