IF-Bench: Benchmarking und Verbesserung von MLLMs für Infrarotbilder mit generativem visuellem Prompting
IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting
December 10, 2025
papers.authors: Tao Zhang, Yuyang Hong, Yang Xia, Kun Ding, Zeyu Zhang, Ying Wang, Shiming Xiang, Chunhong Pan
cs.AI
papers.abstract
Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben zu beeindruckenden Verbesserungen in verschiedenen Benchmarks geführt. Allerdings bleibt ihre Fähigkeit zum Verständnis von Infrarotbildern unerforscht. Um diese Lücke zu schließen, stellen wir IF-Bench vor, den ersten hochwertigen Benchmark zur Bewertung des multimodalen Verständnisses von Infrarotbildern. IF-Bench umfasst 499 Bilder aus 23 Infrarot-Datensätzen sowie 680 sorgfältig zusammengestellte visuelle Frage-Antwort-Paare, die 10 wesentliche Dimensionen des Bildverständnisses abdecken. Auf Basis dieses Benchmarks evaluieren wir systematisch über 40 Open-Source- und Closed-Source-MLLMs und setzen zyklische Evaluation, bilinguale Bewertung und hybride Beurteilungsstrategien ein, um die Zuverlässigkeit der Ergebnisse zu erhöhen. Unsere Analyse zeigt, wie Modellgröße, Architektur und Inferenzparadigmen das Infrarotbildverständnis beeinflussen, und liefert wertvolle Erkenntnisse für dieses Gebiet. Darüber hinaus schlagen wir eine trainierungsfreie Generative Visual Prompting (GenViP)-Methode vor, die fortschrittliche Bildbearbeitungsmodelle nutzt, um Infrarotbilder in semantisch und räumlich ausgerichtete RGB-Pendants zu übersetzen und so Domänenverteilungsverschiebungen zu mildern. Umfangreiche Experimente belegen, dass unsere Methode durchgängig signifikante Leistungsverbesserungen über eine breite Palette von MLLMs hinweg erzielt. Der Benchmark und Code sind unter https://github.com/casiatao/IF-Bench verfügbar.
English
Recent advances in multimodal large language models (MLLMs) have led to impressive progress across various benchmarks. However, their capability in understanding infrared images remains unexplored. To address this gap, we introduce IF-Bench, the first high-quality benchmark designed for evaluating multimodal understanding of infrared images. IF-Bench consists of 499 images sourced from 23 infrared datasets and 680 carefully curated visual question-answer pairs, covering 10 essential dimensions of image understanding. Based on this benchmark, we systematically evaluate over 40 open-source and closed-source MLLMs, employing cyclic evaluation, bilingual assessment, and hybrid judgment strategies to enhance the reliability of the results. Our analysis reveals how model scale, architecture, and inference paradigms affect infrared image comprehension, providing valuable insights for this area. Furthermore, we propose a training-free generative visual prompting (GenViP) method, which leverages advanced image editing models to translate infrared images into semantically and spatially aligned RGB counterparts, thereby mitigating domain distribution shifts. Extensive experiments demonstrate that our method consistently yields significant performance improvements across a wide range of MLLMs. The benchmark and code are available at https://github.com/casiatao/IF-Bench.