ThermalGen: スタイル分離型フローベース生成モデルによるRGB-熱画像変換
ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation
September 29, 2025
著者: Jiuhong Xiao, Roshan Nayak, Ning Zhang, Daniel Tortei, Giuseppe Loianno
cs.AI
要旨
ペアリングされたRGB-サーモデータは、視覚-サーモセンサー融合およびクロスモダリティタスクにおいて極めて重要であり、マルチモーダル画像アライメントや検索などの重要な応用に不可欠である。しかし、同期および校正されたRGB-サーモ画像ペアの不足は、これらの分野の進展における主要な障害となっている。この課題を克服するため、RGBからサーモ(RGB-T)画像変換が有望な解決策として登場し、豊富なRGBデータセットからサーモ画像を合成してトレーニングに利用することが可能となった。本研究では、RGB-T画像変換のための適応型フローベース生成モデルであるThermalGenを提案し、RGB画像条件付けアーキテクチャとスタイル分離メカニズムを組み込んでいる。大規模トレーニングを支援するため、8つの公開された衛星-航空、航空、地上RGB-Tペアデータセットをキュレーションし、多様な時間、センサータイプ、地理的領域にわたってキャプチャされた3つの新しい大規模衛星-航空RGB-Tデータセット(DJI-day、Bosonplus-day、Bosonplus-night)を導入した。複数のRGB-Tベンチマークにわたる広範な評価により、ThermalGenは既存のGANベースおよび拡散ベースの手法と比較して同等または優れた変換性能を達成することが示された。我々の知る限り、ThermalGenは、視点、センサー特性、環境条件の大幅な変動を反映したサーモ画像を合成可能な初めてのRGB-T画像変換モデルである。プロジェクトページ: http://xjh19971.github.io/ThermalGen
English
Paired RGB-thermal data is crucial for visual-thermal sensor fusion and
cross-modality tasks, including important applications such as multi-modal
image alignment and retrieval. However, the scarcity of synchronized and
calibrated RGB-thermal image pairs presents a major obstacle to progress in
these areas. To overcome this challenge, RGB-to-Thermal (RGB-T) image
translation has emerged as a promising solution, enabling the synthesis of
thermal images from abundant RGB datasets for training purposes. In this study,
we propose ThermalGen, an adaptive flow-based generative model for RGB-T image
translation, incorporating an RGB image conditioning architecture and a
style-disentangled mechanism. To support large-scale training, we curated eight
public satellite-aerial, aerial, and ground RGB-T paired datasets, and
introduced three new large-scale satellite-aerial RGB-T datasets--DJI-day,
Bosonplus-day, and Bosonplus-night--captured across diverse times, sensor
types, and geographic regions. Extensive evaluations across multiple RGB-T
benchmarks demonstrate that ThermalGen achieves comparable or superior
translation performance compared to existing GAN-based and diffusion-based
methods. To our knowledge, ThermalGen is the first RGB-T image translation
model capable of synthesizing thermal images that reflect significant
variations in viewpoints, sensor characteristics, and environmental conditions.
Project page: http://xjh19971.github.io/ThermalGen