ChatPaper.aiChatPaper

ThermalGen: Stil-entkoppelte, flussbasierte generative Modelle für die RGB-zu-Thermal-Bildübersetzung

ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation

September 29, 2025
papers.authors: Jiuhong Xiao, Roshan Nayak, Ning Zhang, Daniel Tortei, Giuseppe Loianno
cs.AI

papers.abstract

Gepaarte RGB-thermische Daten sind entscheidend für die Fusion von visuellen und thermischen Sensoren sowie für Aufgaben der Cross-Modalität, einschließlich wichtiger Anwendungen wie der multimodalen Bildausrichtung und -wiederherstellung. Die Knappheit von synchronisierten und kalibrierten RGB-thermischen Bildpaaren stellt jedoch ein großes Hindernis für Fortschritte in diesen Bereichen dar. Um diese Herausforderung zu bewältigen, hat sich die RGB-zu-Thermal (RGB-T) Bildübersetzung als vielversprechende Lösung herausgestellt, die die Synthese von thermischen Bildern aus umfangreichen RGB-Datensätzen für Trainingszwecke ermöglicht. In dieser Studie schlagen wir ThermalGen vor, ein adaptives, flussbasiertes generatives Modell für die RGB-T Bildübersetzung, das eine RGB-Bildkonditionierungsarchitektur und einen stilentkoppelten Mechanismus integriert. Um ein groß angelegtes Training zu unterstützen, haben wir acht öffentliche Satelliten-Luft-, Luft- und Boden-RGB-T gepaarte Datensätze kuratiert und drei neue groß angelegte Satelliten-Luft-RGB-T Datensätze eingeführt – DJI-day, Bosonplus-day und Bosonplus-night – die zu verschiedenen Zeiten, mit verschiedenen Sensortypen und in verschiedenen geografischen Regionen aufgenommen wurden. Umfangreiche Bewertungen über mehrere RGB-T Benchmarks zeigen, dass ThermalGen eine vergleichbare oder überlegene Übersetzungsleistung im Vergleich zu bestehenden GAN-basierten und Diffusions-basierten Methoden erreicht. Nach unserem Wissen ist ThermalGen das erste RGB-T Bildübersetzungsmodell, das in der Lage ist, thermische Bilder zu synthetisieren, die signifikante Variationen in Blickwinkeln, Sensoreigenschaften und Umweltbedingungen widerspiegeln. Projektseite: http://xjh19971.github.io/ThermalGen
English
Paired RGB-thermal data is crucial for visual-thermal sensor fusion and cross-modality tasks, including important applications such as multi-modal image alignment and retrieval. However, the scarcity of synchronized and calibrated RGB-thermal image pairs presents a major obstacle to progress in these areas. To overcome this challenge, RGB-to-Thermal (RGB-T) image translation has emerged as a promising solution, enabling the synthesis of thermal images from abundant RGB datasets for training purposes. In this study, we propose ThermalGen, an adaptive flow-based generative model for RGB-T image translation, incorporating an RGB image conditioning architecture and a style-disentangled mechanism. To support large-scale training, we curated eight public satellite-aerial, aerial, and ground RGB-T paired datasets, and introduced three new large-scale satellite-aerial RGB-T datasets--DJI-day, Bosonplus-day, and Bosonplus-night--captured across diverse times, sensor types, and geographic regions. Extensive evaluations across multiple RGB-T benchmarks demonstrate that ThermalGen achieves comparable or superior translation performance compared to existing GAN-based and diffusion-based methods. To our knowledge, ThermalGen is the first RGB-T image translation model capable of synthesizing thermal images that reflect significant variations in viewpoints, sensor characteristics, and environmental conditions. Project page: http://xjh19971.github.io/ThermalGen
PDF12September 30, 2025