Токенизация участков изображения: объединение глобального контекста для эффективного удаления дымки в крупных изображениях
Tokenize Image Patches: Global Context Fusion for Effective Haze Removal in Large Images
April 13, 2025
Авторы: Jiuchen Chen, Xinyu Yan, Qizhi Xu, Kaiqi Li
cs.AI
Аннотация
Глобальная контекстная информация и локальные детали являются ключевыми для задач удаления дымки. Модели глубокого обучения показывают хорошие результаты на небольших изображениях с низким разрешением, но сталкиваются с трудностями при обработке крупных изображений с высоким разрешением из-за ограничений памяти GPU. В качестве компромисса часто применяются методы нарезки изображений или их уменьшения. Первый подход снижает глобальную информацию, а второй теряет высокочастотные детали. Для решения этих проблем мы предлагаем DehazeXL — метод удаления дымки, который эффективно балансирует извлечение глобального контекста и локальных признаков, позволяя выполнять сквозное моделирование крупных изображений на стандартных GPU. Кроме того, для оценки эффективности использования глобального контекста в задачах удаления дымки мы разработали метод визуальной атрибуции, адаптированный к особенностям таких задач. Наконец, учитывая отсутствие эталонных наборов данных для удаления дымки на крупных изображениях, мы создали набор данных сверхвысокого разрешения (8KDehaze) для обучения и тестирования моделей. Он включает 10000 пар чистых и задымленных изображений дистанционного зондирования, каждое размером 8192 на 8192 пикселей. Эксперименты показывают, что DehazeXL способен обрабатывать изображения размером до 10240 на 10240 пикселей, используя всего 21 ГБ памяти, и демонстрирует наилучшие результаты среди всех оцененных методов. Исходный код и экспериментальные данные доступны по адресу https://github.com/CastleChen339/DehazeXL.
English
Global contextual information and local detail features are essential for
haze removal tasks. Deep learning models perform well on small, low-resolution
images, but they encounter difficulties with large, high-resolution ones due to
GPU memory limitations. As a compromise, they often resort to image slicing or
downsampling. The former diminishes global information, while the latter
discards high-frequency details. To address these challenges, we propose
DehazeXL, a haze removal method that effectively balances global context and
local feature extraction, enabling end-to-end modeling of large images on
mainstream GPU hardware. Additionally, to evaluate the efficiency of global
context utilization in haze removal performance, we design a visual attribution
method tailored to the characteristics of haze removal tasks. Finally,
recognizing the lack of benchmark datasets for haze removal in large images, we
have developed an ultra-high-resolution haze removal dataset (8KDehaze) to
support model training and testing. It includes 10000 pairs of clear and hazy
remote sensing images, each sized at 8192 times 8192 pixels. Extensive
experiments demonstrate that DehazeXL can infer images up to 10240 times
10240 pixels with only 21 GB of memory, achieving state-of-the-art results
among all evaluated methods. The source code and experimental dataset are
available at https://github.com/CastleChen339/DehazeXL.Summary
AI-Generated Summary