ChatPaper.aiChatPaper

ThermalGen: Stijl-Ontvlochten Stroomgebaseerde Generatieve Modellen voor RGB-naar-Thermische Beeldvertaling

ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation

September 29, 2025
Auteurs: Jiuhong Xiao, Roshan Nayak, Ning Zhang, Daniel Tortei, Giuseppe Loianno
cs.AI

Samenvatting

Gepaarde RGB-thermische gegevens zijn cruciaal voor visueel-thermische sensorfusie en cross-modaliteitstaken, waaronder belangrijke toepassingen zoals multi-modale beelduitlijning en -retrieval. De schaarste aan gesynchroniseerde en gekalibreerde RGB-thermische beeldparen vormt echter een grote belemmering voor vooruitgang in deze gebieden. Om deze uitdaging te overwinnen, is RGB-naar-Thermisch (RGB-T) beeldvertaling naar voren gekomen als een veelbelovende oplossing, waardoor de synthese van thermische beelden uit overvloedige RGB-datasets voor trainingsdoeleinden mogelijk wordt gemaakt. In deze studie stellen we ThermalGen voor, een adaptief op stroming gebaseerd generatief model voor RGB-T beeldvertaling, dat een RGB-beeldconditioneringsarchitectuur en een stijl-ontwarringsmechanisme omvat. Om grootschalige training te ondersteunen, hebben we acht publieke satelliet-lucht-, lucht- en grond-RGB-T gepaarde datasets samengesteld, en hebben we drie nieuwe grootschalige satelliet-lucht-RGB-T datasets geïntroduceerd--DJI-day, Bosonplus-day, en Bosonplus-night--die zijn vastgelegd over diverse tijden, sensortypes, en geografische regio's. Uitgebreide evaluaties over meerdere RGB-T benchmarks tonen aan dat ThermalGen vergelijkbare of superieure vertaalprestaties bereikt in vergelijking met bestaande GAN-gebaseerde en diffusie-gebaseerde methoden. Voor zover wij weten, is ThermalGen het eerste RGB-T beeldvertaalmodel dat in staat is om thermische beelden te synthetiseren die significante variaties in gezichtspunten, sensorkenmerken en omgevingsomstandigheden weerspiegelen. Projectpagina: http://xjh19971.github.io/ThermalGen
English
Paired RGB-thermal data is crucial for visual-thermal sensor fusion and cross-modality tasks, including important applications such as multi-modal image alignment and retrieval. However, the scarcity of synchronized and calibrated RGB-thermal image pairs presents a major obstacle to progress in these areas. To overcome this challenge, RGB-to-Thermal (RGB-T) image translation has emerged as a promising solution, enabling the synthesis of thermal images from abundant RGB datasets for training purposes. In this study, we propose ThermalGen, an adaptive flow-based generative model for RGB-T image translation, incorporating an RGB image conditioning architecture and a style-disentangled mechanism. To support large-scale training, we curated eight public satellite-aerial, aerial, and ground RGB-T paired datasets, and introduced three new large-scale satellite-aerial RGB-T datasets--DJI-day, Bosonplus-day, and Bosonplus-night--captured across diverse times, sensor types, and geographic regions. Extensive evaluations across multiple RGB-T benchmarks demonstrate that ThermalGen achieves comparable or superior translation performance compared to existing GAN-based and diffusion-based methods. To our knowledge, ThermalGen is the first RGB-T image translation model capable of synthesizing thermal images that reflect significant variations in viewpoints, sensor characteristics, and environmental conditions. Project page: http://xjh19971.github.io/ThermalGen
PDF22September 30, 2025