Tokenisierung von Bildausschnitten: Globale Kontextfusion für effektive Nebelentfernung in großen Bildern
Tokenize Image Patches: Global Context Fusion for Effective Haze Removal in Large Images
April 13, 2025
Autoren: Jiuchen Chen, Xinyu Yan, Qizhi Xu, Kaiqi Li
cs.AI
Zusammenfassung
Globale Kontextinformationen und lokale Detailmerkmale sind entscheidend für Aufgaben der Nebelentfernung. Deep-Learning-Modelle zeigen gute Leistungen bei kleinen, niedrigauflösenden Bildern, stoßen jedoch bei großen, hochauflösenden Bildern aufgrund von GPU-Speicherbeschränkungen auf Schwierigkeiten. Als Kompromiss greifen sie oft auf Bildsegmentierung oder Herunterskalierung zurück. Erstere reduziert globale Informationen, während letztere hochfrequente Details verwirft. Um diese Herausforderungen zu bewältigen, schlagen wir DehazeXL vor, eine Methode zur Nebelentfernung, die effektiv globalen Kontext und lokale Merkmalsextraktion ausbalanciert und eine end-to-end-Modellierung großer Bilder auf gängiger GPU-Hardware ermöglicht. Zusätzlich haben wir, um die Effizienz der globalen Kontextnutzung für die Nebelentfernung zu bewerten, eine visuelle Attributionsmethode entwickelt, die auf die Eigenschaften von Nebelentfernungsaufgaben zugeschnitten ist. Schließlich haben wir, angesichts des Mangels an Benchmark-Datensätzen für die Nebelentfernung in großen Bildern, einen ultrahochauflösenden Nebelentfernungsdatensatz (8KDehaze) erstellt, um das Training und Testen von Modellen zu unterstützen. Dieser umfasst 10.000 Paare von klaren und nebligen Fernerkundungsbildern, jeweils in der Größe von 8192 mal 8192 Pixeln. Umfangreiche Experimente zeigen, dass DehazeXL Bilder bis zu 10240 mal 10240 Pixeln mit nur 21 GB Speicher inferieren kann und dabei state-of-the-art-Ergebnisse unter allen bewerteten Methoden erzielt. Der Quellcode und der experimentelle Datensatz sind unter https://github.com/CastleChen339/DehazeXL verfügbar.
English
Global contextual information and local detail features are essential for
haze removal tasks. Deep learning models perform well on small, low-resolution
images, but they encounter difficulties with large, high-resolution ones due to
GPU memory limitations. As a compromise, they often resort to image slicing or
downsampling. The former diminishes global information, while the latter
discards high-frequency details. To address these challenges, we propose
DehazeXL, a haze removal method that effectively balances global context and
local feature extraction, enabling end-to-end modeling of large images on
mainstream GPU hardware. Additionally, to evaluate the efficiency of global
context utilization in haze removal performance, we design a visual attribution
method tailored to the characteristics of haze removal tasks. Finally,
recognizing the lack of benchmark datasets for haze removal in large images, we
have developed an ultra-high-resolution haze removal dataset (8KDehaze) to
support model training and testing. It includes 10000 pairs of clear and hazy
remote sensing images, each sized at 8192 times 8192 pixels. Extensive
experiments demonstrate that DehazeXL can infer images up to 10240 times
10240 pixels with only 21 GB of memory, achieving state-of-the-art results
among all evaluated methods. The source code and experimental dataset are
available at https://github.com/CastleChen339/DehazeXL.Summary
AI-Generated Summary