Tokenizzazione delle Patch di Immagini: Fusione del Contesto Globale per una Rimozione Efficace della Foschia nelle Immagini di Grandi Dimensioni
Tokenize Image Patches: Global Context Fusion for Effective Haze Removal in Large Images
April 13, 2025
Autori: Jiuchen Chen, Xinyu Yan, Qizhi Xu, Kaiqi Li
cs.AI
Abstract
Le informazioni contestuali globali e le caratteristiche dettagliate locali sono essenziali per i compiti di rimozione della foschia. I modelli di deep learning performano bene su immagini piccole e a bassa risoluzione, ma incontrano difficoltà con immagini grandi e ad alta risoluzione a causa delle limitazioni della memoria GPU. Come compromesso, spesso ricorrono al taglio delle immagini o al downsampling. Il primo riduce le informazioni globali, mentre il secondo scarta i dettagli ad alta frequenza. Per affrontare queste sfide, proponiamo DehazeXL, un metodo di rimozione della foschia che bilancia efficacemente il contesto globale e l'estrazione di caratteristiche locali, consentendo la modellazione end-to-end di immagini grandi su hardware GPU mainstream. Inoltre, per valutare l'efficienza dell'utilizzo del contesto globale nella performance di rimozione della foschia, progettiamo un metodo di attribuzione visiva adattato alle caratteristiche dei compiti di rimozione della foschia. Infine, riconoscendo la mancanza di dataset di riferimento per la rimozione della foschia in immagini grandi, abbiamo sviluppato un dataset di rimozione della foschia a ultra-alta risoluzione (8KDehaze) per supportare l'addestramento e il testing dei modelli. Include 10000 coppie di immagini remote sensing chiare e con foschia, ciascuna di dimensioni 8192 per 8192 pixel. Esperimenti estensivi dimostrano che DehazeXL può inferire immagini fino a 10240 per 10240 pixel con solo 21 GB di memoria, raggiungendo risultati all'avanguardia tra tutti i metodi valutati. Il codice sorgente e il dataset sperimentale sono disponibili su https://github.com/CastleChen339/DehazeXL.
English
Global contextual information and local detail features are essential for
haze removal tasks. Deep learning models perform well on small, low-resolution
images, but they encounter difficulties with large, high-resolution ones due to
GPU memory limitations. As a compromise, they often resort to image slicing or
downsampling. The former diminishes global information, while the latter
discards high-frequency details. To address these challenges, we propose
DehazeXL, a haze removal method that effectively balances global context and
local feature extraction, enabling end-to-end modeling of large images on
mainstream GPU hardware. Additionally, to evaluate the efficiency of global
context utilization in haze removal performance, we design a visual attribution
method tailored to the characteristics of haze removal tasks. Finally,
recognizing the lack of benchmark datasets for haze removal in large images, we
have developed an ultra-high-resolution haze removal dataset (8KDehaze) to
support model training and testing. It includes 10000 pairs of clear and hazy
remote sensing images, each sized at 8192 times 8192 pixels. Extensive
experiments demonstrate that DehazeXL can infer images up to 10240 times
10240 pixels with only 21 GB of memory, achieving state-of-the-art results
among all evaluated methods. The source code and experimental dataset are
available at https://github.com/CastleChen339/DehazeXL.Summary
AI-Generated Summary