ThermalGen: Modelli Generativi Basati su Flusso con Disaccoppiamento dello Stile per la Traduzione da Immagini RGB a Termiche
ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation
September 29, 2025
Autori: Jiuhong Xiao, Roshan Nayak, Ning Zhang, Daniel Tortei, Giuseppe Loianno
cs.AI
Abstract
I dati accoppiati RGB-termici sono cruciali per la fusione sensoriale visivo-termica e per le attività di cross-modalità, includendo applicazioni importanti come l'allineamento e il recupero di immagini multi-modali. Tuttavia, la scarsità di coppie di immagini RGB-termiche sincronizzate e calibrate rappresenta un ostacolo significativo al progresso in queste aree. Per superare questa sfida, la traduzione di immagini da RGB a Termico (RGB-T) è emersa come una soluzione promettente, consentendo la sintesi di immagini termiche a partire da ampi dataset RGB per scopi di addestramento. In questo studio, proponiamo ThermalGen, un modello generativo basato su flussi adattativi per la traduzione di immagini RGB-T, che incorpora un'architettura di condizionamento delle immagini RGB e un meccanismo di separazione dello stile. Per supportare l'addestramento su larga scala, abbiamo curato otto dataset pubblici di coppie RGB-T satellitari-aeree, aeree e terrestri, e introdotto tre nuovi dataset su larga scala di coppie RGB-T satellitari-aeree--DJI-day, Bosonplus-day e Bosonplus-night--acquisiti in diversi momenti, con diversi tipi di sensori e in diverse regioni geografiche. Valutazioni estese su molteplici benchmark RGB-T dimostrano che ThermalGen raggiunge prestazioni di traduzione comparabili o superiori rispetto ai metodi esistenti basati su GAN e su diffusione. A nostra conoscenza, ThermalGen è il primo modello di traduzione di immagini RGB-T in grado di sintetizzare immagini termiche che riflettono significative variazioni nei punti di vista, nelle caratteristiche dei sensori e nelle condizioni ambientali. Pagina del progetto: http://xjh19971.github.io/ThermalGen
English
Paired RGB-thermal data is crucial for visual-thermal sensor fusion and
cross-modality tasks, including important applications such as multi-modal
image alignment and retrieval. However, the scarcity of synchronized and
calibrated RGB-thermal image pairs presents a major obstacle to progress in
these areas. To overcome this challenge, RGB-to-Thermal (RGB-T) image
translation has emerged as a promising solution, enabling the synthesis of
thermal images from abundant RGB datasets for training purposes. In this study,
we propose ThermalGen, an adaptive flow-based generative model for RGB-T image
translation, incorporating an RGB image conditioning architecture and a
style-disentangled mechanism. To support large-scale training, we curated eight
public satellite-aerial, aerial, and ground RGB-T paired datasets, and
introduced three new large-scale satellite-aerial RGB-T datasets--DJI-day,
Bosonplus-day, and Bosonplus-night--captured across diverse times, sensor
types, and geographic regions. Extensive evaluations across multiple RGB-T
benchmarks demonstrate that ThermalGen achieves comparable or superior
translation performance compared to existing GAN-based and diffusion-based
methods. To our knowledge, ThermalGen is the first RGB-T image translation
model capable of synthesizing thermal images that reflect significant
variations in viewpoints, sensor characteristics, and environmental conditions.
Project page: http://xjh19971.github.io/ThermalGen