Tokenisation des Patchs d'Image : Fusion de Contexte Global pour une Suppression Efficace de la Brume dans les Grandes Images
Tokenize Image Patches: Global Context Fusion for Effective Haze Removal in Large Images
April 13, 2025
Auteurs: Jiuchen Chen, Xinyu Yan, Qizhi Xu, Kaiqi Li
cs.AI
Résumé
Les informations contextuelles globales et les détails locaux sont essentiels pour les tâches de suppression de la brume. Les modèles d'apprentissage profond performants sur les images de petite taille et de faible résolution rencontrent des difficultés avec les images de grande taille et de haute résolution en raison des limitations de mémoire GPU. En compromis, ils recourent souvent au découpage d'images ou à la réduction de résolution. Le premier diminue les informations globales, tandis que le second élimine les détails haute fréquence. Pour relever ces défis, nous proposons DehazeXL, une méthode de suppression de la brume qui équilibre efficacement l'extraction du contexte global et des caractéristiques locales, permettant une modélisation de bout en bout des grandes images sur du matériel GPU grand public. De plus, pour évaluer l'efficacité de l'utilisation du contexte global dans la performance de suppression de la brume, nous concevons une méthode d'attribution visuelle adaptée aux caractéristiques de ces tâches. Enfin, reconnaissant le manque de jeux de données de référence pour la suppression de la brume dans les grandes images, nous avons développé un jeu de données de suppression de la brume en ultra-haute résolution (8KDehaze) pour soutenir l'entraînement et le test des modèles. Il comprend 10 000 paires d'images de télédétection claires et brumeuses, chacune de taille 8192 × 8192 pixels. Des expériences approfondies démontrent que DehazeXL peut inférer des images jusqu'à 10240 × 10240 pixels avec seulement 21 Go de mémoire, obtenant des résultats de pointe parmi toutes les méthodes évaluées. Le code source et le jeu de données expérimental sont disponibles à l'adresse https://github.com/CastleChen339/DehazeXL.
English
Global contextual information and local detail features are essential for
haze removal tasks. Deep learning models perform well on small, low-resolution
images, but they encounter difficulties with large, high-resolution ones due to
GPU memory limitations. As a compromise, they often resort to image slicing or
downsampling. The former diminishes global information, while the latter
discards high-frequency details. To address these challenges, we propose
DehazeXL, a haze removal method that effectively balances global context and
local feature extraction, enabling end-to-end modeling of large images on
mainstream GPU hardware. Additionally, to evaluate the efficiency of global
context utilization in haze removal performance, we design a visual attribution
method tailored to the characteristics of haze removal tasks. Finally,
recognizing the lack of benchmark datasets for haze removal in large images, we
have developed an ultra-high-resolution haze removal dataset (8KDehaze) to
support model training and testing. It includes 10000 pairs of clear and hazy
remote sensing images, each sized at 8192 times 8192 pixels. Extensive
experiments demonstrate that DehazeXL can infer images up to 10240 times
10240 pixels with only 21 GB of memory, achieving state-of-the-art results
among all evaluated methods. The source code and experimental dataset are
available at https://github.com/CastleChen339/DehazeXL.Summary
AI-Generated Summary