이미지 패치 토큰화: 대형 이미지에서 효과적인 안개 제거를 위한 글로벌 컨텍스트 융합
Tokenize Image Patches: Global Context Fusion for Effective Haze Removal in Large Images
April 13, 2025
저자: Jiuchen Chen, Xinyu Yan, Qizhi Xu, Kaiqi Li
cs.AI
초록
안개 제거 작업에는 전역적인 문맥 정보와 지역적인 세부 특징이 필수적입니다. 딥러닝 모델은 작고 저해상도의 이미지에서는 잘 작동하지만, GPU 메모리 제약으로 인해 크고 고해상도의 이미지에서는 어려움을 겪습니다. 이를 타협하기 위해 종종 이미지 슬라이싱이나 다운샘플링을 사용합니다. 전자는 전역 정보를 감소시키고, 후자는 고주파 세부 정보를 버리게 됩니다. 이러한 문제를 해결하기 위해, 우리는 DehazeXL을 제안합니다. 이는 전역 문맥과 지역 특징 추출을 효과적으로 균형 잡아, 주류 GPU 하드웨어에서 대형 이미지의 종단 간 모델링을 가능하게 합니다. 또한, 안개 제거 성능에서 전역 문맥 활용의 효율성을 평가하기 위해, 안개 제거 작업의 특성에 맞춘 시각적 귀속 방법을 설계했습니다. 마지막으로, 대형 이미지에서의 안개 제거를 위한 벤치마크 데이터셋이 부족함을 인식하고, 모델 학습과 테스트를 지원하기 위해 초고해상도 안개 제거 데이터셋(8KDehaze)을 개발했습니다. 이 데이터셋은 8192x8192 픽셀 크기의 10000쌍의 맑은 이미지와 안개 낀 원격 감지 이미지를 포함합니다. 광범위한 실험 결과, DehazeXL은 단 21GB의 메모리로 최대 10240x10240 픽셀의 이미지를 추론할 수 있으며, 평가된 모든 방법 중 최첨단 결과를 달성했습니다. 소스 코드와 실험 데이터셋은 https://github.com/CastleChen339/DehazeXL에서 확인할 수 있습니다.
English
Global contextual information and local detail features are essential for
haze removal tasks. Deep learning models perform well on small, low-resolution
images, but they encounter difficulties with large, high-resolution ones due to
GPU memory limitations. As a compromise, they often resort to image slicing or
downsampling. The former diminishes global information, while the latter
discards high-frequency details. To address these challenges, we propose
DehazeXL, a haze removal method that effectively balances global context and
local feature extraction, enabling end-to-end modeling of large images on
mainstream GPU hardware. Additionally, to evaluate the efficiency of global
context utilization in haze removal performance, we design a visual attribution
method tailored to the characteristics of haze removal tasks. Finally,
recognizing the lack of benchmark datasets for haze removal in large images, we
have developed an ultra-high-resolution haze removal dataset (8KDehaze) to
support model training and testing. It includes 10000 pairs of clear and hazy
remote sensing images, each sized at 8192 times 8192 pixels. Extensive
experiments demonstrate that DehazeXL can infer images up to 10240 times
10240 pixels with only 21 GB of memory, achieving state-of-the-art results
among all evaluated methods. The source code and experimental dataset are
available at https://github.com/CastleChen339/DehazeXL.Summary
AI-Generated Summary