IF-Bench: Evaluación y Mejora de MLLMs para Imágenes Infrarrojas mediante Indicación Visual Generativa
IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting
December 10, 2025
Autores: Tao Zhang, Yuyang Hong, Yang Xia, Kun Ding, Zeyu Zhang, Ying Wang, Shiming Xiang, Chunhong Pan
cs.AI
Resumen
Los recientes avances en modelos de lenguaje multimodal (MLLMs) han logrado progresos impresionantes en diversos benchmarks. Sin embargo, su capacidad para comprender imágenes infrarrojas permanece inexplorada. Para abordar esta brecha, presentamos IF-Bench, el primer benchmark de alta calidad diseñado para evaluar la comprensión multimodal de imágenes infrarrojas. IF-Bench consta de 499 imágenes obtenidas de 23 conjuntos de datos infrarrojos y 680 pares pregunta-respuesta visual cuidadosamente seleccionados, cubriendo 10 dimensiones esenciales de la comprensión de imágenes. Basándonos en este benchmark, evaluamos sistemáticamente más de 40 MLLMs de código abierto y cerrado, empleando estrategias de evaluación cíclica, evaluación bilingüe y juicio híbrido para mejorar la confiabilidad de los resultados. Nuestro análisis revela cómo la escala del modelo, la arquitectura y los paradigmas de inferencia afectan la comprensión de imágenes infrarrojas, proporcionando información valiosa para esta área. Además, proponemos un método de prompting visual generativo sin entrenamiento (GenViP), que aprovecha modelos avanzados de edición de imágenes para traducir imágenes infrarrojas en contrapartes RGB alineadas semántica y espacialmente, mitigando así los cambios de distribución de dominio. Experimentos extensos demuestran que nuestro método genera consistentemente mejoras significativas de rendimiento en una amplia gama de MLLMs. El benchmark y el código están disponibles en https://github.com/casiatao/IF-Bench.
English
Recent advances in multimodal large language models (MLLMs) have led to impressive progress across various benchmarks. However, their capability in understanding infrared images remains unexplored. To address this gap, we introduce IF-Bench, the first high-quality benchmark designed for evaluating multimodal understanding of infrared images. IF-Bench consists of 499 images sourced from 23 infrared datasets and 680 carefully curated visual question-answer pairs, covering 10 essential dimensions of image understanding. Based on this benchmark, we systematically evaluate over 40 open-source and closed-source MLLMs, employing cyclic evaluation, bilingual assessment, and hybrid judgment strategies to enhance the reliability of the results. Our analysis reveals how model scale, architecture, and inference paradigms affect infrared image comprehension, providing valuable insights for this area. Furthermore, we propose a training-free generative visual prompting (GenViP) method, which leverages advanced image editing models to translate infrared images into semantically and spatially aligned RGB counterparts, thereby mitigating domain distribution shifts. Extensive experiments demonstrate that our method consistently yields significant performance improvements across a wide range of MLLMs. The benchmark and code are available at https://github.com/casiatao/IF-Bench.