ChatPaper.aiChatPaper

IF-Bench: Benchmarking e potenziamento dei MLLM per immagini all'infrarosso con prompt visivi generativi

IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting

December 10, 2025
Autori: Tao Zhang, Yuyang Hong, Yang Xia, Kun Ding, Zeyu Zhang, Ying Wang, Shiming Xiang, Chunhong Pan
cs.AI

Abstract

I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno portato a impressionanti avanzamenti in vari benchmark. Tuttavia, la loro capacità di comprensione delle immagini all'infrarosso rimane inesplorata. Per colmare questa lacuna, introduciamo IF-Bench, il primo benchmark di alta qualità progettato per valutare la comprensione multimodale delle immagini all'infrarosso. IF-Bench è composto da 499 immagini provenienti da 23 dataset infrarossi e 680 coppie domanda-risposta visive accuratamente curate, che coprono 10 dimensioni essenziali della comprensione delle immagini. Sulla base di questo benchmark, valutiamo sistematicamente oltre 40 MLLM open-source e closed-source, impiegando strategie di valutazione ciclica, valutazione bilingue e giudizio ibrido per migliorare l'affidabilità dei risultati. La nostra analisi rivela come la scala del modello, l'architettura e i paradigmi di inferenza influenzino la comprensione delle immagini all'infrarosso, fornendo spunti preziosi per questo ambito. Inoltre, proponiamo un metodo generativo di prompt visivo (GenViP) senza necessità di addestramento, che sfrutta modelli avanzati di editing delle immagini per convertire le immagini infrarosse in controparti RGB allineate semanticamente e spazialmente, mitigando così gli spostamenti della distribuzione di dominio. Esperimenti estensivi dimostrano che il nostro metodo produce costantemente miglioramenti significativi delle prestazioni su un'ampia gamma di MLLM. Il benchmark e il codice sono disponibili all'indirizzo https://github.com/casiatao/IF-Bench.
English
Recent advances in multimodal large language models (MLLMs) have led to impressive progress across various benchmarks. However, their capability in understanding infrared images remains unexplored. To address this gap, we introduce IF-Bench, the first high-quality benchmark designed for evaluating multimodal understanding of infrared images. IF-Bench consists of 499 images sourced from 23 infrared datasets and 680 carefully curated visual question-answer pairs, covering 10 essential dimensions of image understanding. Based on this benchmark, we systematically evaluate over 40 open-source and closed-source MLLMs, employing cyclic evaluation, bilingual assessment, and hybrid judgment strategies to enhance the reliability of the results. Our analysis reveals how model scale, architecture, and inference paradigms affect infrared image comprehension, providing valuable insights for this area. Furthermore, we propose a training-free generative visual prompting (GenViP) method, which leverages advanced image editing models to translate infrared images into semantically and spatially aligned RGB counterparts, thereby mitigating domain distribution shifts. Extensive experiments demonstrate that our method consistently yields significant performance improvements across a wide range of MLLMs. The benchmark and code are available at https://github.com/casiatao/IF-Bench.
PDF32December 13, 2025