ThermalGen : Modèles génératifs basés sur des flux et désentrelacés de style pour la traduction d'images RVB vers thermique
ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation
September 29, 2025
papers.authors: Jiuhong Xiao, Roshan Nayak, Ning Zhang, Daniel Tortei, Giuseppe Loianno
cs.AI
papers.abstract
Les données appariées RGB-thermiques sont essentielles pour la fusion de capteurs visuels-thermiques et les tâches de cross-modalité, incluant des applications importantes telles que l'alignement et la recherche d'images multi-modales. Cependant, la rareté de paires d'images RGB-thermiques synchronisées et calibrées constitue un obstacle majeur aux progrès dans ces domaines. Pour surmonter ce défi, la traduction d'images RGB vers thermique (RGB-T) est apparue comme une solution prometteuse, permettant la synthèse d'images thermiques à partir de jeux de données RGB abondants à des fins d'entraînement. Dans cette étude, nous proposons ThermalGen, un modèle génératif basé sur des flux adaptatifs pour la traduction d'images RGB-T, intégrant une architecture de conditionnement d'images RGB et un mécanisme de séparation de style. Pour soutenir un entraînement à grande échelle, nous avons constitué huit jeux de données publics appariés RGB-T issus de satellites, de prises de vue aériennes et de prises de vue au sol, et avons introduit trois nouveaux jeux de données RGB-T à grande échelle issus de satellites et de prises de vue aériennes—DJI-day, Bosonplus-day et Bosonplus-night—capturés à différents moments, avec différents types de capteurs et dans diverses régions géographiques. Des évaluations approfondies sur plusieurs benchmarks RGB-T démontrent que ThermalGen atteint des performances de traduction comparables ou supérieures à celles des méthodes existantes basées sur les GAN et la diffusion. À notre connaissance, ThermalGen est le premier modèle de traduction d'images RGB-T capable de synthétiser des images thermiques reflétant des variations significatives de points de vue, de caractéristiques des capteurs et de conditions environnementales. Page du projet : http://xjh19971.github.io/ThermalGen
English
Paired RGB-thermal data is crucial for visual-thermal sensor fusion and
cross-modality tasks, including important applications such as multi-modal
image alignment and retrieval. However, the scarcity of synchronized and
calibrated RGB-thermal image pairs presents a major obstacle to progress in
these areas. To overcome this challenge, RGB-to-Thermal (RGB-T) image
translation has emerged as a promising solution, enabling the synthesis of
thermal images from abundant RGB datasets for training purposes. In this study,
we propose ThermalGen, an adaptive flow-based generative model for RGB-T image
translation, incorporating an RGB image conditioning architecture and a
style-disentangled mechanism. To support large-scale training, we curated eight
public satellite-aerial, aerial, and ground RGB-T paired datasets, and
introduced three new large-scale satellite-aerial RGB-T datasets--DJI-day,
Bosonplus-day, and Bosonplus-night--captured across diverse times, sensor
types, and geographic regions. Extensive evaluations across multiple RGB-T
benchmarks demonstrate that ThermalGen achieves comparable or superior
translation performance compared to existing GAN-based and diffusion-based
methods. To our knowledge, ThermalGen is the first RGB-T image translation
model capable of synthesizing thermal images that reflect significant
variations in viewpoints, sensor characteristics, and environmental conditions.
Project page: http://xjh19971.github.io/ThermalGen