Tokenização de Patches de Imagem: Fusão de Contexto Global para Remoção Eficaz de Névoa em Imagens de Grande Porte
Tokenize Image Patches: Global Context Fusion for Effective Haze Removal in Large Images
April 13, 2025
Autores: Jiuchen Chen, Xinyu Yan, Qizhi Xu, Kaiqi Li
cs.AI
Resumo
Informações contextuais globais e detalhes locais são essenciais para tarefas de remoção de névoa. Modelos de aprendizado profundo apresentam bom desempenho em imagens pequenas e de baixa resolução, mas enfrentam dificuldades com imagens grandes e de alta resolução devido às limitações de memória da GPU. Como compromisso, eles frequentemente recorrem ao corte de imagens ou à redução de resolução. O primeiro diminui as informações globais, enquanto o último descarta detalhes de alta frequência. Para abordar esses desafios, propomos o DehazeXL, um método de remoção de névoa que equilibra efetivamente o contexto global e a extração de características locais, permitindo a modelagem de ponta a ponta de imagens grandes em hardware GPU convencional. Além disso, para avaliar a eficiência da utilização do contexto global no desempenho da remoção de névoa, projetamos um método de atribuição visual adaptado às características das tarefas de remoção de névoa. Por fim, reconhecendo a falta de conjuntos de dados de referência para remoção de névoa em imagens grandes, desenvolvemos um conjunto de dados de remoção de névoa de ultra-alta resolução (8KDehaze) para apoiar o treinamento e teste de modelos. Ele inclui 10000 pares de imagens de sensoriamento remoto claras e com névoa, cada uma com o tamanho de 8192 por 8192 pixels. Experimentos extensivos demonstram que o DehazeXL pode inferir imagens de até 10240 por 10240 pixels com apenas 21 GB de memória, alcançando resultados de ponta entre todos os métodos avaliados. O código-fonte e o conjunto de dados experimental estão disponíveis em https://github.com/CastleChen339/DehazeXL.
English
Global contextual information and local detail features are essential for
haze removal tasks. Deep learning models perform well on small, low-resolution
images, but they encounter difficulties with large, high-resolution ones due to
GPU memory limitations. As a compromise, they often resort to image slicing or
downsampling. The former diminishes global information, while the latter
discards high-frequency details. To address these challenges, we propose
DehazeXL, a haze removal method that effectively balances global context and
local feature extraction, enabling end-to-end modeling of large images on
mainstream GPU hardware. Additionally, to evaluate the efficiency of global
context utilization in haze removal performance, we design a visual attribution
method tailored to the characteristics of haze removal tasks. Finally,
recognizing the lack of benchmark datasets for haze removal in large images, we
have developed an ultra-high-resolution haze removal dataset (8KDehaze) to
support model training and testing. It includes 10000 pairs of clear and hazy
remote sensing images, each sized at 8192 times 8192 pixels. Extensive
experiments demonstrate that DehazeXL can infer images up to 10240 times
10240 pixels with only 21 GB of memory, achieving state-of-the-art results
among all evaluated methods. The source code and experimental dataset are
available at https://github.com/CastleChen339/DehazeXL.Summary
AI-Generated Summary