IF-Bench: Het benchmarken en verbeteren van MLLM's voor infraroodbeelden met generatieve visuele prompting
IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting
December 10, 2025
Auteurs: Tao Zhang, Yuyang Hong, Yang Xia, Kun Ding, Zeyu Zhang, Ying Wang, Shiming Xiang, Chunhong Pan
cs.AI
Samenvatting
Recente ontwikkelingen in multimodale grote taalmodellen (MLLM's) hebben tot indrukwekkende vooruitgang geleid op diverse benchmarks. Hun vermogen om infraroodbeelden te begrijpen blijft echter onontgonnen terrein. Om deze leemte op te vullen, introduceren we IF-Bench, de eerste hoogwaardige benchmark die is ontworpen voor de evaluatie van multimodaal begrip van infraroodbeelden. IF-Bench bestaat uit 499 beelden afkomstig uit 23 infrarooddatasets en 680 zorgvuldig samengestelde visuele vraag-antwoordparen, die 10 essentiële dimensies van beeldbegrip beslaan. Op basis van deze benchmark evalueren we systematisch meer dan 40 open-source en closed-source MLLM's, waarbij we cyclische evaluatie, tweetalige beoordeling en hybride beoordelingsstrategieën inzetten om de betrouwbaarheid van de resultaten te vergroten. Onze analyse onthult hoe modelschaal, architectuur en inferentieparadigma's het begrip van infraroodbeelden beïnvloeden, wat waardevolle inzichten biedt voor dit onderzoeksgebied. Verder stellen we een trainingsvrije generatieve visuele prompting-methode (GenViP) voor, die gebruikmaakt van geavanceerde beeldbewerkingsmodellen om infraroodbeelden om te zetten in semantisch en ruimtelijk uitgelijnde RGB-equivalenten, waardoor domeinverdelingverschuivingen worden verminderd. Uitgebreide experimenten tonen aan dat onze methode consistent significante prestatieverbeteringen oplevert bij een breed scala aan MLLM's. De benchmark en code zijn beschikbaar op https://github.com/casiatao/IF-Bench.
English
Recent advances in multimodal large language models (MLLMs) have led to impressive progress across various benchmarks. However, their capability in understanding infrared images remains unexplored. To address this gap, we introduce IF-Bench, the first high-quality benchmark designed for evaluating multimodal understanding of infrared images. IF-Bench consists of 499 images sourced from 23 infrared datasets and 680 carefully curated visual question-answer pairs, covering 10 essential dimensions of image understanding. Based on this benchmark, we systematically evaluate over 40 open-source and closed-source MLLMs, employing cyclic evaluation, bilingual assessment, and hybrid judgment strategies to enhance the reliability of the results. Our analysis reveals how model scale, architecture, and inference paradigms affect infrared image comprehension, providing valuable insights for this area. Furthermore, we propose a training-free generative visual prompting (GenViP) method, which leverages advanced image editing models to translate infrared images into semantically and spatially aligned RGB counterparts, thereby mitigating domain distribution shifts. Extensive experiments demonstrate that our method consistently yields significant performance improvements across a wide range of MLLMs. The benchmark and code are available at https://github.com/casiatao/IF-Bench.