ChatPaper.aiChatPaper

Restauração de Imagens com Consciência de Texto usando Modelos de Difusão

Text-Aware Image Restoration with Diffusion Models

June 11, 2025
Autores: Jaewon Min, Jin Hyeon Kim, Paul Hyunbin Cho, Jaeeun Lee, Jihye Park, Minkyu Park, Sangpil Kim, Hyunhee Park, Seungryong Kim
cs.AI

Resumo

A restauração de imagens visa recuperar imagens degradadas. No entanto, os métodos existentes baseados em difusão, apesar de grande sucesso na restauração de imagens naturais, frequentemente lutam para reconstruir fielmente regiões textuais em imagens degradadas. Esses métodos frequentemente geram padrões plausíveis, mas incorretos, semelhantes a texto, um fenômeno que chamamos de alucinação texto-imagem. Neste artigo, introduzimos a Restauração de Imagem Consciente de Texto (TAIR), uma nova tarefa de restauração que exige a recuperação simultânea de conteúdos visuais e fidelidade textual. Para enfrentar essa tarefa, apresentamos o SA-Text, um benchmark em larga escala de 100 mil imagens de cena de alta qualidade densamente anotadas com instâncias de texto diversas e complexas. Além disso, propomos um framework de difusão multitarefa, chamado TeReDiff, que integra características internas de modelos de difusão em um módulo de detecção de texto, permitindo que ambos os componentes se beneficiem do treinamento conjunto. Isso possibilita a extração de representações ricas de texto, que são utilizadas como prompts nas etapas subsequentes de redução de ruído. Experimentos extensivos demonstram que nossa abordagem supera consistentemente os métodos de restauração state-of-the-art, alcançando ganhos significativos na precisão de reconhecimento de texto. Veja nossa página do projeto: https://cvlab-kaist.github.io/TAIR/
English
Image restoration aims to recover degraded images. However, existing diffusion-based restoration methods, despite great success in natural image restoration, often struggle to faithfully reconstruct textual regions in degraded images. Those methods frequently generate plausible but incorrect text-like patterns, a phenomenon we refer to as text-image hallucination. In this paper, we introduce Text-Aware Image Restoration (TAIR), a novel restoration task that requires the simultaneous recovery of visual contents and textual fidelity. To tackle this task, we present SA-Text, a large-scale benchmark of 100K high-quality scene images densely annotated with diverse and complex text instances. Furthermore, we propose a multi-task diffusion framework, called TeReDiff, that integrates internal features from diffusion models into a text-spotting module, enabling both components to benefit from joint training. This allows for the extraction of rich text representations, which are utilized as prompts in subsequent denoising steps. Extensive experiments demonstrate that our approach consistently outperforms state-of-the-art restoration methods, achieving significant gains in text recognition accuracy. See our project page: https://cvlab-kaist.github.io/TAIR/
PDF352June 13, 2025