ThermalGen: Modelos Gerativos Baseados em Fluxo com Separação de Estilo para Tradução de Imagens RGB para Térmicas
ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation
September 29, 2025
Autores: Jiuhong Xiao, Roshan Nayak, Ning Zhang, Daniel Tortei, Giuseppe Loianno
cs.AI
Resumo
Dados emparelhados RGB-térmicos são cruciais para a fusão de sensores visuais-térmicos e tarefas de cross-modalidade, incluindo aplicações importantes como alinhamento e recuperação de imagens multimodais. No entanto, a escassez de pares de imagens RGB-térmicas sincronizadas e calibradas representa um grande obstáculo para o progresso nessas áreas. Para superar esse desafio, a tradução de imagens RGB para térmicas (RGB-T) surgiu como uma solução promissora, permitindo a síntese de imagens térmicas a partir de conjuntos de dados RGB abundantes para fins de treinamento. Neste estudo, propomos o ThermalGen, um modelo generativo baseado em fluxo adaptativo para tradução de imagens RGB-T, incorporando uma arquitetura de condicionamento de imagens RGB e um mecanismo de desacoplamento de estilo. Para apoiar o treinamento em larga escala, organizamos oito conjuntos de dados públicos emparelhados RGB-T de satélite-aéreo, aéreo e terrestre, e introduzimos três novos conjuntos de dados RGB-T de satélite-aéreo em larga escala—DJI-day, Bosonplus-day e Bosonplus-night—capturados em diversos horários, tipos de sensores e regiões geográficas. Avaliações extensas em vários benchmarks RGB-T demonstram que o ThermalGen alcança desempenho de tradução comparável ou superior aos métodos existentes baseados em GAN e difusão. Até onde sabemos, o ThermalGen é o primeiro modelo de tradução de imagens RGB-T capaz de sintetizar imagens térmicas que refletem variações significativas em pontos de vista, características de sensores e condições ambientais. Página do projeto: http://xjh19971.github.io/ThermalGen
English
Paired RGB-thermal data is crucial for visual-thermal sensor fusion and
cross-modality tasks, including important applications such as multi-modal
image alignment and retrieval. However, the scarcity of synchronized and
calibrated RGB-thermal image pairs presents a major obstacle to progress in
these areas. To overcome this challenge, RGB-to-Thermal (RGB-T) image
translation has emerged as a promising solution, enabling the synthesis of
thermal images from abundant RGB datasets for training purposes. In this study,
we propose ThermalGen, an adaptive flow-based generative model for RGB-T image
translation, incorporating an RGB image conditioning architecture and a
style-disentangled mechanism. To support large-scale training, we curated eight
public satellite-aerial, aerial, and ground RGB-T paired datasets, and
introduced three new large-scale satellite-aerial RGB-T datasets--DJI-day,
Bosonplus-day, and Bosonplus-night--captured across diverse times, sensor
types, and geographic regions. Extensive evaluations across multiple RGB-T
benchmarks demonstrate that ThermalGen achieves comparable or superior
translation performance compared to existing GAN-based and diffusion-based
methods. To our knowledge, ThermalGen is the first RGB-T image translation
model capable of synthesizing thermal images that reflect significant
variations in viewpoints, sensor characteristics, and environmental conditions.
Project page: http://xjh19971.github.io/ThermalGen