Tokenisation des Patchs d'Image : Fusion de Contexte Global pour une Suppression Efficace de la Brume dans les Grandes Images

papers.abstract

Les informations contextuelles globales et les détails locaux sont essentiels pour les tâches de suppression de la brume. Les modèles d'apprentissage profond performants sur les images de petite taille et de faible résolution rencontrent des difficultés avec les images de grande taille et de haute résolution en raison des limitations de mémoire GPU. En compromis, ils recourent souvent au découpage d'images ou à la réduction de résolution. Le premier diminue les informations globales, tandis que le second élimine les détails haute fréquence. Pour relever ces défis, nous proposons DehazeXL, une méthode de suppression de la brume qui équilibre efficacement l'extraction du contexte global et des caractéristiques locales, permettant une modélisation de bout en bout des grandes images sur du matériel GPU grand public. De plus, pour évaluer l'efficacité de l'utilisation du contexte global dans la performance de suppression de la brume, nous concevons une méthode d'attribution visuelle adaptée aux caractéristiques de ces tâches. Enfin, reconnaissant le manque de jeux de données de référence pour la suppression de la brume dans les grandes images, nous avons développé un jeu de données de suppression de la brume en ultra-haute résolution (8KDehaze) pour soutenir l'entraînement et le test des modèles. Il comprend 10 000 paires d'images de télédétection claires et brumeuses, chacune de taille 8192 × 8192 pixels. Des expériences approfondies démontrent que DehazeXL peut inférer des images jusqu'à 10240 × 10240 pixels avec seulement 21 Go de mémoire, obtenant des résultats de pointe parmi toutes les méthodes évaluées. Le code source et le jeu de données expérimental sont disponibles à l'adresse https://github.com/CastleChen339/DehazeXL.

English

Global contextual information and local detail features are essential for haze removal tasks. Deep learning models perform well on small, low-resolution images, but they encounter difficulties with large, high-resolution ones due to GPU memory limitations. As a compromise, they often resort to image slicing or downsampling. The former diminishes global information, while the latter discards high-frequency details. To address these challenges, we propose DehazeXL, a haze removal method that effectively balances global context and local feature extraction, enabling end-to-end modeling of large images on mainstream GPU hardware. Additionally, to evaluate the efficiency of global context utilization in haze removal performance, we design a visual attribution method tailored to the characteristics of haze removal tasks. Finally, recognizing the lack of benchmark datasets for haze removal in large images, we have developed an ultra-high-resolution haze removal dataset (8KDehaze) to support model training and testing. It includes 10000 pairs of clear and hazy remote sensing images, each sized at 8192 times 8192 pixels. Extensive experiments demonstrate that DehazeXL can infer images up to 10240 times 10240 pixels with only 21 GB of memory, achieving state-of-the-art results among all evaluated methods. The source code and experimental dataset are available at https://github.com/CastleChen339/DehazeXL.

Tokenisation des Patchs d'Image : Fusion de Contexte Global pour une Suppression Efficace de la Brume dans les Grandes Images

Tokenize Image Patches: Global Context Fusion for Effective Haze Removal in Large Images

papers.abstract

Support