Tokenización de Parches de Imagen: Fusión de Contexto Global para una Eliminación Efectiva de Niebla en Imágenes de Gran Tamaño
Tokenize Image Patches: Global Context Fusion for Effective Haze Removal in Large Images
April 13, 2025
Autores: Jiuchen Chen, Xinyu Yan, Qizhi Xu, Kaiqi Li
cs.AI
Resumen
La información contextual global y los detalles locales son esenciales para las tareas de eliminación de niebla. Los modelos de aprendizaje profundo funcionan bien con imágenes pequeñas y de baja resolución, pero encuentran dificultades con imágenes grandes y de alta resolución debido a las limitaciones de memoria de las GPU. Como compromiso, a menudo recurren al corte de imágenes o a la reducción de resolución. El primero disminuye la información global, mientras que el segundo descarta los detalles de alta frecuencia. Para abordar estos desafíos, proponemos DehazeXL, un método de eliminación de niebla que equilibra eficazmente el contexto global y la extracción de características locales, permitiendo el modelado de imágenes grandes de extremo a extremo en hardware GPU estándar. Además, para evaluar la eficiencia de la utilización del contexto global en el rendimiento de la eliminación de niebla, diseñamos un método de atribución visual adaptado a las características de estas tareas. Finalmente, reconociendo la falta de conjuntos de datos de referencia para la eliminación de niebla en imágenes grandes, hemos desarrollado un conjunto de datos de eliminación de niebla de ultra alta resolución (8KDehaze) para apoyar el entrenamiento y prueba de modelos. Este incluye 10000 pares de imágenes de teledetección claras y con niebla, cada una con un tamaño de 8192 por 8192 píxeles. Experimentos extensivos demuestran que DehazeXL puede inferir imágenes de hasta 10240 por 10240 píxeles utilizando solo 21 GB de memoria, logrando resultados de vanguardia entre todos los métodos evaluados. El código fuente y el conjunto de datos experimental están disponibles en https://github.com/CastleChen339/DehazeXL.
English
Global contextual information and local detail features are essential for
haze removal tasks. Deep learning models perform well on small, low-resolution
images, but they encounter difficulties with large, high-resolution ones due to
GPU memory limitations. As a compromise, they often resort to image slicing or
downsampling. The former diminishes global information, while the latter
discards high-frequency details. To address these challenges, we propose
DehazeXL, a haze removal method that effectively balances global context and
local feature extraction, enabling end-to-end modeling of large images on
mainstream GPU hardware. Additionally, to evaluate the efficiency of global
context utilization in haze removal performance, we design a visual attribution
method tailored to the characteristics of haze removal tasks. Finally,
recognizing the lack of benchmark datasets for haze removal in large images, we
have developed an ultra-high-resolution haze removal dataset (8KDehaze) to
support model training and testing. It includes 10000 pairs of clear and hazy
remote sensing images, each sized at 8192 times 8192 pixels. Extensive
experiments demonstrate that DehazeXL can infer images up to 10240 times
10240 pixels with only 21 GB of memory, achieving state-of-the-art results
among all evaluated methods. The source code and experimental dataset are
available at https://github.com/CastleChen339/DehazeXL.Summary
AI-Generated Summary