ChatPaper.aiChatPaper

Text-bewusste Bildrestauration mit Diffusionsmodellen

Text-Aware Image Restoration with Diffusion Models

June 11, 2025
Autoren: Jaewon Min, Jin Hyeon Kim, Paul Hyunbin Cho, Jaeeun Lee, Jihye Park, Minkyu Park, Sangpil Kim, Hyunhee Park, Seungryong Kim
cs.AI

Zusammenfassung

Die Bildrestauration zielt darauf ab, degradierte Bilder wiederherzustellen. Allerdings haben bestehende, auf Diffusion basierende Restaurationsmethoden, trotz großer Erfolge bei der Restauration natürlicher Bilder, oft Schwierigkeiten, Textbereiche in degradierten Bildern treu zu rekonstruieren. Diese Methoden erzeugen häufig plausible, aber falsche textähnliche Muster, ein Phänomen, das wir als Text-Bild-Halluzination bezeichnen. In diesem Artikel führen wir die Text-Aware Image Restoration (TAIR) ein, eine neuartige Restaurationsaufgabe, die die gleichzeitige Wiederherstellung visueller Inhalte und textlicher Genauigkeit erfordert. Um diese Aufgabe zu bewältigen, präsentieren wir SA-Text, einen groß angelegten Benchmark mit 100K hochwertigen Szenenbildern, die dicht mit vielfältigen und komplexen Textinstanzen annotiert sind. Darüber hinaus schlagen wir ein Multi-Task-Diffusionsframework namens TeReDiff vor, das interne Merkmale von Diffusionsmodellen in ein Text-Spotting-Modul integriert, wodurch beide Komponenten von einem gemeinsamen Training profitieren können. Dies ermöglicht die Extraktion reichhaltiger Textrepräsentationen, die als Prompts in nachfolgenden Denoising-Schritten verwendet werden. Umfangreiche Experimente zeigen, dass unser Ansatz durchweg state-of-the-art Restaurationsmethoden übertrifft und signifikante Verbesserungen in der Texterkennungsgenauigkeit erzielt. Besuchen Sie unsere Projektseite: https://cvlab-kaist.github.io/TAIR/
English
Image restoration aims to recover degraded images. However, existing diffusion-based restoration methods, despite great success in natural image restoration, often struggle to faithfully reconstruct textual regions in degraded images. Those methods frequently generate plausible but incorrect text-like patterns, a phenomenon we refer to as text-image hallucination. In this paper, we introduce Text-Aware Image Restoration (TAIR), a novel restoration task that requires the simultaneous recovery of visual contents and textual fidelity. To tackle this task, we present SA-Text, a large-scale benchmark of 100K high-quality scene images densely annotated with diverse and complex text instances. Furthermore, we propose a multi-task diffusion framework, called TeReDiff, that integrates internal features from diffusion models into a text-spotting module, enabling both components to benefit from joint training. This allows for the extraction of rich text representations, which are utilized as prompts in subsequent denoising steps. Extensive experiments demonstrate that our approach consistently outperforms state-of-the-art restoration methods, achieving significant gains in text recognition accuracy. See our project page: https://cvlab-kaist.github.io/TAIR/
PDF342June 13, 2025