ChatPaper.aiChatPaper

IF-Bench : Évaluation et Amélioration des MLLM pour les Images Infrarouges par Invite Visuelle Générative

IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting

December 10, 2025
papers.authors: Tao Zhang, Yuyang Hong, Yang Xia, Kun Ding, Zeyu Zhang, Ying Wang, Shiming Xiang, Chunhong Pan
cs.AI

papers.abstract

Les récentes avancées des modèles de langage multimodaux à grande échelle (MLLM) ont conduit à des progrès impressionnants sur diverses benchmarks. Cependant, leur capacité à comprendre les images infrarouges reste inexplorée. Pour combler cette lacune, nous présentons IF-Bench, la première benchmark de haute qualité conçue pour évaluer la compréhension multimodale des images infrarouges. IF-Bench se compose de 499 images issues de 23 jeux de données infrarouges et de 680 paires question-réponse visuelles soigneusement élaborées, couvrant 10 dimensions essentielles de la compréhension d'image. Sur la base de cette benchmark, nous évaluons systématiquement plus de 40 MLLM open-source et propriétaires, en employant des stratégies d'évaluation cyclique, d'évaluation bilingue et de jugement hybride pour améliorer la fiabilité des résultats. Notre analyse révèle comment l'échelle du modèle, l'architecture et les paradigmes d'inférence affectent la compréhension des images infrarouges, fournissant des insights précieux pour ce domaine. De plus, nous proposons une méthode générative d'invite visuelle sans entraînement (GenViP), qui exploite des modèles avancés d'édition d'image pour traduire les images infrarouges en leurs équivalents RGB alignés sémantiquement et spatialement, atténuant ainsi les décalages de distribution de domaine. Des expériences approfondies démontrent que notre méthode produit systématiquement des améliorations significatives de performance sur un large éventail de MLLM. La benchmark et le code sont disponibles à l'adresse https://github.com/casiatao/IF-Bench.
English
Recent advances in multimodal large language models (MLLMs) have led to impressive progress across various benchmarks. However, their capability in understanding infrared images remains unexplored. To address this gap, we introduce IF-Bench, the first high-quality benchmark designed for evaluating multimodal understanding of infrared images. IF-Bench consists of 499 images sourced from 23 infrared datasets and 680 carefully curated visual question-answer pairs, covering 10 essential dimensions of image understanding. Based on this benchmark, we systematically evaluate over 40 open-source and closed-source MLLMs, employing cyclic evaluation, bilingual assessment, and hybrid judgment strategies to enhance the reliability of the results. Our analysis reveals how model scale, architecture, and inference paradigms affect infrared image comprehension, providing valuable insights for this area. Furthermore, we propose a training-free generative visual prompting (GenViP) method, which leverages advanced image editing models to translate infrared images into semantically and spatially aligned RGB counterparts, thereby mitigating domain distribution shifts. Extensive experiments demonstrate that our method consistently yields significant performance improvements across a wide range of MLLMs. The benchmark and code are available at https://github.com/casiatao/IF-Bench.
PDF32December 13, 2025