확산 모델을 활용한 텍스트 인식 이미지 복원
Text-Aware Image Restoration with Diffusion Models
June 11, 2025
저자: Jaewon Min, Jin Hyeon Kim, Paul Hyunbin Cho, Jaeeun Lee, Jihye Park, Minkyu Park, Sangpil Kim, Hyunhee Park, Seungryong Kim
cs.AI
초록
이미지 복원은 훼손된 이미지를 복구하는 것을 목표로 합니다. 그러나 기존의 확산 기반 복원 방법들은 자연 이미지 복원에서는 큰 성공을 거두었지만, 훼손된 이미지의 텍스트 영역을 충실히 재구성하는 데 어려움을 겪는 경우가 많습니다. 이러한 방법들은 종종 그럴듯하지만 잘못된 텍스트 유사 패턴을 생성하는데, 이를 우리는 텍스트-이미지 환각 현상이라고 부릅니다. 본 논문에서는 시각적 내용과 텍스트 정확도를 동시에 복구해야 하는 새로운 복원 작업인 텍스트 인식 이미지 복원(Text-Aware Image Restoration, TAIR)을 소개합니다. 이 작업을 해결하기 위해, 우리는 다양하고 복잡한 텍스트 인스턴스로 밀집하게 주석이 달린 10만 개의 고품질 장면 이미지로 구성된 대규모 벤치마크인 SA-Text를 제시합니다. 또한, 우리는 TeReDiff라는 다중 작업 확산 프레임워크를 제안합니다. 이 프레임워크는 확산 모델의 내부 특징을 텍스트 탐지 모듈에 통합하여 두 구성 요소가 공동 학습을 통해 이점을 얻을 수 있도록 합니다. 이를 통해 풍부한 텍스트 표현을 추출할 수 있으며, 이는 후속 노이즈 제거 단계에서 프롬프트로 활용됩니다. 광범위한 실험을 통해 우리의 접근 방식이 최신 복원 방법들을 일관되게 능가하며, 텍스트 인식 정확도에서 상당한 향상을 달성함을 입증합니다. 프로젝트 페이지를 참조하십시오: https://cvlab-kaist.github.io/TAIR/
English
Image restoration aims to recover degraded images. However, existing
diffusion-based restoration methods, despite great success in natural image
restoration, often struggle to faithfully reconstruct textual regions in
degraded images. Those methods frequently generate plausible but incorrect
text-like patterns, a phenomenon we refer to as text-image hallucination. In
this paper, we introduce Text-Aware Image Restoration (TAIR), a novel
restoration task that requires the simultaneous recovery of visual contents and
textual fidelity. To tackle this task, we present SA-Text, a large-scale
benchmark of 100K high-quality scene images densely annotated with diverse and
complex text instances. Furthermore, we propose a multi-task diffusion
framework, called TeReDiff, that integrates internal features from diffusion
models into a text-spotting module, enabling both components to benefit from
joint training. This allows for the extraction of rich text representations,
which are utilized as prompts in subsequent denoising steps. Extensive
experiments demonstrate that our approach consistently outperforms
state-of-the-art restoration methods, achieving significant gains in text
recognition accuracy. See our project page: https://cvlab-kaist.github.io/TAIR/