ChatPaper.aiChatPaper

ThermalGen: Modelos Generativos Basados en Flujo con Desenredado de Estilo para la Traducción de Imágenes RGB a Térmicas

ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation

September 29, 2025
Autores: Jiuhong Xiao, Roshan Nayak, Ning Zhang, Daniel Tortei, Giuseppe Loianno
cs.AI

Resumen

Los datos emparejados RGB-térmicos son cruciales para la fusión de sensores visuales y térmicos, así como para tareas de multimodalidad, incluyendo aplicaciones importantes como la alineación y recuperación de imágenes multimodales. Sin embargo, la escasez de pares de imágenes RGB-térmicas sincronizadas y calibradas representa un obstáculo importante para el avance en estas áreas. Para superar este desafío, la traducción de imágenes RGB a térmicas (RGB-T) ha surgido como una solución prometedora, permitiendo la síntesis de imágenes térmicas a partir de conjuntos de datos RGB abundantes para fines de entrenamiento. En este estudio, proponemos ThermalGen, un modelo generativo basado en flujo adaptativo para la traducción de imágenes RGB-T, que incorpora una arquitectura de condicionamiento de imágenes RGB y un mecanismo de desentrelazado de estilos. Para respaldar el entrenamiento a gran escala, recopilamos ocho conjuntos de datos públicos emparejados RGB-T de satélite-aéreo, aéreo y terrestre, e introdujimos tres nuevos conjuntos de datos RGB-T de satélite-aéreo a gran escala—DJI-day, Bosonplus-day y Bosonplus-night—capturados en diversos momentos, tipos de sensores y regiones geográficas. Evaluaciones exhaustivas en múltiples benchmarks RGB-T demuestran que ThermalGen logra un rendimiento de traducción comparable o superior en comparación con los métodos existentes basados en GAN y difusión. Hasta donde sabemos, ThermalGen es el primer modelo de traducción de imágenes RGB-T capaz de sintetizar imágenes térmicas que reflejan variaciones significativas en puntos de vista, características de los sensores y condiciones ambientales. Página del proyecto: http://xjh19971.github.io/ThermalGen
English
Paired RGB-thermal data is crucial for visual-thermal sensor fusion and cross-modality tasks, including important applications such as multi-modal image alignment and retrieval. However, the scarcity of synchronized and calibrated RGB-thermal image pairs presents a major obstacle to progress in these areas. To overcome this challenge, RGB-to-Thermal (RGB-T) image translation has emerged as a promising solution, enabling the synthesis of thermal images from abundant RGB datasets for training purposes. In this study, we propose ThermalGen, an adaptive flow-based generative model for RGB-T image translation, incorporating an RGB image conditioning architecture and a style-disentangled mechanism. To support large-scale training, we curated eight public satellite-aerial, aerial, and ground RGB-T paired datasets, and introduced three new large-scale satellite-aerial RGB-T datasets--DJI-day, Bosonplus-day, and Bosonplus-night--captured across diverse times, sensor types, and geographic regions. Extensive evaluations across multiple RGB-T benchmarks demonstrate that ThermalGen achieves comparable or superior translation performance compared to existing GAN-based and diffusion-based methods. To our knowledge, ThermalGen is the first RGB-T image translation model capable of synthesizing thermal images that reflect significant variations in viewpoints, sensor characteristics, and environmental conditions. Project page: http://xjh19971.github.io/ThermalGen
PDF12September 30, 2025