IF-Bench: 生成視覚プロンプティングによる赤外線画像向けMLLMのベンチマーキングと性能向上
IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting
December 10, 2025
著者: Tao Zhang, Yuyang Hong, Yang Xia, Kun Ding, Zeyu Zhang, Ying Wang, Shiming Xiang, Chunhong Pan
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)の最近の進展は、様々なベンチマークで目覚ましい進歩をもたらしている。しかし、赤外線画像を理解する能力については未解明のままである。この課題に対処するため、我々は赤外線画像のマルチモーダル理解を評価する初の高品質ベンチマーク「IF-Bench」を提案する。IF-Benchは23の赤外線データセットから収集した499枚の画像と、画像理解の10の重要次元を網羅するように注意深く作成された680組の視覚的質問応答ペアで構成される。このベンチマークに基づき、オープンソース及びクローズドソースの40以上のMLLMを体系的に評価し、結果の信頼性を高めるために循環評価、二言語評価、ハイブリッド判定戦略を採用した。分析により、モデル規模、アーキテクチャ、推論パラダイムが赤外線画像の理解に与える影響が明らかになり、この分野に貴重な知見を提供する。さらに、高度な画像編集モデルを活用して赤外線画像を意味的・空間的に整合したRGB画像に変換することで、ドメイン分布シフトを緩和するトレーニング不要の生成的視覚プロンプト手法(GenViP)を提案する。大規模な実験により、本手法が幅広いMLLMで一貫して大幅な性能向上をもたらすことが実証された。ベンチマークとコードはhttps://github.com/casiatao/IF-Bench で公開されている。
English
Recent advances in multimodal large language models (MLLMs) have led to impressive progress across various benchmarks. However, their capability in understanding infrared images remains unexplored. To address this gap, we introduce IF-Bench, the first high-quality benchmark designed for evaluating multimodal understanding of infrared images. IF-Bench consists of 499 images sourced from 23 infrared datasets and 680 carefully curated visual question-answer pairs, covering 10 essential dimensions of image understanding. Based on this benchmark, we systematically evaluate over 40 open-source and closed-source MLLMs, employing cyclic evaluation, bilingual assessment, and hybrid judgment strategies to enhance the reliability of the results. Our analysis reveals how model scale, architecture, and inference paradigms affect infrared image comprehension, providing valuable insights for this area. Furthermore, we propose a training-free generative visual prompting (GenViP) method, which leverages advanced image editing models to translate infrared images into semantically and spatially aligned RGB counterparts, thereby mitigating domain distribution shifts. Extensive experiments demonstrate that our method consistently yields significant performance improvements across a wide range of MLLMs. The benchmark and code are available at https://github.com/casiatao/IF-Bench.