ChatPaper.aiChatPaper

ThermalGen: 스타일 분리 기반 플로우 생성 모델을 이용한 RGB-열화상 이미지 변환

ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation

September 29, 2025
저자: Jiuhong Xiao, Roshan Nayak, Ning Zhang, Daniel Tortei, Giuseppe Loianno
cs.AI

초록

RGB-열화상 데이터 쌍은 시각-열 센서 융합 및 다중 모달 이미지 정렬 및 검색과 같은 중요한 응용 분야를 포함한 교차 모달리티 작업에 있어 핵심적입니다. 그러나 동기화 및 보정된 RGB-열화상 이미지 쌍의 부족은 이러한 분야의 발전에 주요 장애물로 작용하고 있습니다. 이러한 문제를 극복하기 위해 RGB-열화상(RGB-T) 이미지 변환 기술이 대안으로 등장하여, 풍부한 RGB 데이터셋을 활용하여 열화상 이미지를 합성하고 이를 훈련 목적으로 사용할 수 있게 되었습니다. 본 연구에서는 RGB-T 이미지 변환을 위한 적응형 플로우 기반 생성 모델인 ThermalGen을 제안하며, 이는 RGB 이미지 조건화 아키텍처와 스타일 분리 메커니즘을 통합합니다. 대규모 훈련을 지원하기 위해, 우리는 8개의 공개 위성-항공, 항공 및 지상 RGB-T 쌍 데이터셋을 정제하고, 다양한 시간, 센서 유형 및 지리적 지역에서 캡처된 세 가지 새로운 대규모 위성-항공 RGB-T 데이터셋(DJI-day, Bosonplus-day, Bosonplus-night)을 소개합니다. 다중 RGB-T 벤치마크에 걸친 광범위한 평가를 통해 ThermalGen이 기존의 GAN 기반 및 확산 기반 방법과 비교하여 동등하거나 우수한 변환 성능을 달성함을 입증합니다. 우리가 아는 한, ThermalGen은 시점, 센서 특성 및 환경 조건의 상당한 변화를 반영한 열화상 이미지를 합성할 수 있는 최초의 RGB-T 이미지 변환 모델입니다. 프로젝트 페이지: http://xjh19971.github.io/ThermalGen
English
Paired RGB-thermal data is crucial for visual-thermal sensor fusion and cross-modality tasks, including important applications such as multi-modal image alignment and retrieval. However, the scarcity of synchronized and calibrated RGB-thermal image pairs presents a major obstacle to progress in these areas. To overcome this challenge, RGB-to-Thermal (RGB-T) image translation has emerged as a promising solution, enabling the synthesis of thermal images from abundant RGB datasets for training purposes. In this study, we propose ThermalGen, an adaptive flow-based generative model for RGB-T image translation, incorporating an RGB image conditioning architecture and a style-disentangled mechanism. To support large-scale training, we curated eight public satellite-aerial, aerial, and ground RGB-T paired datasets, and introduced three new large-scale satellite-aerial RGB-T datasets--DJI-day, Bosonplus-day, and Bosonplus-night--captured across diverse times, sensor types, and geographic regions. Extensive evaluations across multiple RGB-T benchmarks demonstrate that ThermalGen achieves comparable or superior translation performance compared to existing GAN-based and diffusion-based methods. To our knowledge, ThermalGen is the first RGB-T image translation model capable of synthesizing thermal images that reflect significant variations in viewpoints, sensor characteristics, and environmental conditions. Project page: http://xjh19971.github.io/ThermalGen
PDF12September 30, 2025