拡散モデルを用いたテキスト認識画像復元
Text-Aware Image Restoration with Diffusion Models
June 11, 2025
著者: Jaewon Min, Jin Hyeon Kim, Paul Hyunbin Cho, Jaeeun Lee, Jihye Park, Minkyu Park, Sangpil Kim, Hyunhee Park, Seungryong Kim
cs.AI
要旨
画像復元は、劣化した画像を復元することを目的としている。しかし、既存の拡散モデルに基づく復元手法は、自然画像の復元において大きな成功を収めているものの、劣化画像のテキスト領域を忠実に再構築するのに苦戦することが多い。これらの手法は、しばしばもっともらしいが誤ったテキストのようなパターンを生成する現象を、我々は「テキスト-画像幻覚」と呼んでいる。本論文では、視覚的内容とテキストの忠実度を同時に復元することを要求する新しい復元タスクであるText-Aware Image Restoration (TAIR)を提案する。このタスクに対処するため、多様で複雑なテキストインスタンスが密に注釈付けされた10万枚の高品質なシーン画像からなる大規模ベンチマークSA-Textを提示する。さらに、拡散モデルからの内部特徴をテキストスポッティングモジュールに統合し、両コンポーネントが共同訓練から利益を得られるようにする多タスク拡散フレームワークTeReDiffを提案する。これにより、豊富なテキスト表現を抽出し、その後のノイズ除去ステップでプロンプトとして利用することが可能となる。広範な実験により、我々のアプローチが最先端の復元手法を一貫して上回り、テキスト認識精度において大幅な向上を達成することが実証された。プロジェクトページはこちら: https://cvlab-kaist.github.io/TAIR/
English
Image restoration aims to recover degraded images. However, existing
diffusion-based restoration methods, despite great success in natural image
restoration, often struggle to faithfully reconstruct textual regions in
degraded images. Those methods frequently generate plausible but incorrect
text-like patterns, a phenomenon we refer to as text-image hallucination. In
this paper, we introduce Text-Aware Image Restoration (TAIR), a novel
restoration task that requires the simultaneous recovery of visual contents and
textual fidelity. To tackle this task, we present SA-Text, a large-scale
benchmark of 100K high-quality scene images densely annotated with diverse and
complex text instances. Furthermore, we propose a multi-task diffusion
framework, called TeReDiff, that integrates internal features from diffusion
models into a text-spotting module, enabling both components to benefit from
joint training. This allows for the extraction of rich text representations,
which are utilized as prompts in subsequent denoising steps. Extensive
experiments demonstrate that our approach consistently outperforms
state-of-the-art restoration methods, achieving significant gains in text
recognition accuracy. See our project page: https://cvlab-kaist.github.io/TAIR/