ChatPaper.aiChatPaper

Tokenisierung von Bildausschnitten: Globale Kontextfusion für effektive Nebelentfernung in großen Bildern

Tokenize Image Patches: Global Context Fusion for Effective Haze Removal in Large Images

April 13, 2025
Autoren: Jiuchen Chen, Xinyu Yan, Qizhi Xu, Kaiqi Li
cs.AI

Zusammenfassung

Globale Kontextinformationen und lokale Detailmerkmale sind entscheidend für Aufgaben der Nebelentfernung. Deep-Learning-Modelle zeigen gute Leistungen bei kleinen, niedrigauflösenden Bildern, stoßen jedoch bei großen, hochauflösenden Bildern aufgrund von GPU-Speicherbeschränkungen auf Schwierigkeiten. Als Kompromiss greifen sie oft auf Bildsegmentierung oder Herunterskalierung zurück. Erstere reduziert globale Informationen, während letztere hochfrequente Details verwirft. Um diese Herausforderungen zu bewältigen, schlagen wir DehazeXL vor, eine Methode zur Nebelentfernung, die effektiv globalen Kontext und lokale Merkmalsextraktion ausbalanciert und eine end-to-end-Modellierung großer Bilder auf gängiger GPU-Hardware ermöglicht. Zusätzlich haben wir, um die Effizienz der globalen Kontextnutzung für die Nebelentfernung zu bewerten, eine visuelle Attributionsmethode entwickelt, die auf die Eigenschaften von Nebelentfernungsaufgaben zugeschnitten ist. Schließlich haben wir, angesichts des Mangels an Benchmark-Datensätzen für die Nebelentfernung in großen Bildern, einen ultrahochauflösenden Nebelentfernungsdatensatz (8KDehaze) erstellt, um das Training und Testen von Modellen zu unterstützen. Dieser umfasst 10.000 Paare von klaren und nebligen Fernerkundungsbildern, jeweils in der Größe von 8192 mal 8192 Pixeln. Umfangreiche Experimente zeigen, dass DehazeXL Bilder bis zu 10240 mal 10240 Pixeln mit nur 21 GB Speicher inferieren kann und dabei state-of-the-art-Ergebnisse unter allen bewerteten Methoden erzielt. Der Quellcode und der experimentelle Datensatz sind unter https://github.com/CastleChen339/DehazeXL verfügbar.
English
Global contextual information and local detail features are essential for haze removal tasks. Deep learning models perform well on small, low-resolution images, but they encounter difficulties with large, high-resolution ones due to GPU memory limitations. As a compromise, they often resort to image slicing or downsampling. The former diminishes global information, while the latter discards high-frequency details. To address these challenges, we propose DehazeXL, a haze removal method that effectively balances global context and local feature extraction, enabling end-to-end modeling of large images on mainstream GPU hardware. Additionally, to evaluate the efficiency of global context utilization in haze removal performance, we design a visual attribution method tailored to the characteristics of haze removal tasks. Finally, recognizing the lack of benchmark datasets for haze removal in large images, we have developed an ultra-high-resolution haze removal dataset (8KDehaze) to support model training and testing. It includes 10000 pairs of clear and hazy remote sensing images, each sized at 8192 times 8192 pixels. Extensive experiments demonstrate that DehazeXL can infer images up to 10240 times 10240 pixels with only 21 GB of memory, achieving state-of-the-art results among all evaluated methods. The source code and experimental dataset are available at https://github.com/CastleChen339/DehazeXL.

Summary

AI-Generated Summary

PDF112April 21, 2025