ThermalGen: Генеративные модели на основе потоков с разделением стилей для преобразования изображений из RGB в тепловые
ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation
September 29, 2025
Авторы: Jiuhong Xiao, Roshan Nayak, Ning Zhang, Daniel Tortei, Giuseppe Loianno
cs.AI
Аннотация
Парные данные RGB-тепловизионных изображений имеют ключевое значение для слияния визуальных и тепловизионных сенсоров, а также для кросс-модальных задач, включая такие важные приложения, как мультимодальное выравнивание и поиск изображений. Однако дефицит синхронизированных и калиброванных пар RGB-тепловизионных изображений представляет собой серьезное препятствие для прогресса в этих областях. Для преодоления этой проблемы появился подход RGB-to-Thermal (RGB-T) трансляции изображений, который позволяет синтезировать тепловизионные изображения из обширных наборов данных RGB для целей обучения. В данном исследовании мы предлагаем ThermalGen — адаптивную генеративную модель на основе потоков для трансляции RGB-T изображений, включающую архитектуру с условием на RGB изображения и механизм разделения стилей. Для поддержки масштабного обучения мы собрали восемь публичных наборов данных пар RGB-T, полученных со спутников, с воздуха и с земли, а также представили три новых крупномасштабных набора данных RGB-T, полученных со спутников и с воздуха — DJI-day, Bosonplus-day и Bosonplus-night, — которые охватывают различные временные периоды, типы сенсоров и географические регионы. Обширные оценки на множестве бенчмарков RGB-T демонстрируют, что ThermalGen достигает сопоставимого или превосходящего качества трансляции по сравнению с существующими методами на основе GAN и диффузионных моделей. Насколько нам известно, ThermalGen является первой моделью трансляции RGB-T изображений, способной синтезировать тепловизионные изображения, отражающие значительные изменения в точках обзора, характеристиках сенсоров и условиях окружающей среды. Страница проекта: http://xjh19971.github.io/ThermalGen
English
Paired RGB-thermal data is crucial for visual-thermal sensor fusion and
cross-modality tasks, including important applications such as multi-modal
image alignment and retrieval. However, the scarcity of synchronized and
calibrated RGB-thermal image pairs presents a major obstacle to progress in
these areas. To overcome this challenge, RGB-to-Thermal (RGB-T) image
translation has emerged as a promising solution, enabling the synthesis of
thermal images from abundant RGB datasets for training purposes. In this study,
we propose ThermalGen, an adaptive flow-based generative model for RGB-T image
translation, incorporating an RGB image conditioning architecture and a
style-disentangled mechanism. To support large-scale training, we curated eight
public satellite-aerial, aerial, and ground RGB-T paired datasets, and
introduced three new large-scale satellite-aerial RGB-T datasets--DJI-day,
Bosonplus-day, and Bosonplus-night--captured across diverse times, sensor
types, and geographic regions. Extensive evaluations across multiple RGB-T
benchmarks demonstrate that ThermalGen achieves comparable or superior
translation performance compared to existing GAN-based and diffusion-based
methods. To our knowledge, ThermalGen is the first RGB-T image translation
model capable of synthesizing thermal images that reflect significant
variations in viewpoints, sensor characteristics, and environmental conditions.
Project page: http://xjh19971.github.io/ThermalGen