IF-Bench: Бенчмаркинг и улучшение MLLM для инфракрасных изображений с помощью генеративного визуального промптинга
IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting
December 10, 2025
Авторы: Tao Zhang, Yuyang Hong, Yang Xia, Kun Ding, Zeyu Zhang, Ying Wang, Shiming Xiang, Chunhong Pan
cs.AI
Аннотация
Последние достижения в области мультимодальных больших языковых моделей (MLLM) привели к значительному прогрессу в различных тестах. Однако их способность к пониманию инфракрасных изображений оставалась неизученной. Чтобы восполнить этот пробел, мы представляем IF-Bench — первый высококачественный бенчмарк, разработанный для оценки мультимодального понимания инфракрасных изображений. IF-Bench состоит из 499 изображений, полученных из 23 инфракрасных наборов данных, и 680 тщательно отобранных визуальных вопросно-ответных пар, охватывающих 10 ключевых аспектов понимания изображений. На основе этого бенчмарка мы систематически оцениваем более 40 открытых и проприетарных MLLM, применяя циклическую оценку, двуязычное тестирование и гибридные стратегии оценивания для повышения надежности результатов. Наш анализ выявляет, как масштаб модели, архитектура и парадигмы вывода влияют на понимание инфракрасных изображений, предоставляя ценные инсайты для данной области. Кроме того, мы предлагаем не требующий обучения метод генеративного визуального prompting (GenViP), который использует передовые модели редактирования изображений для преобразования инфракрасных изображений в семантически и пространственно согласованные RGB-аналоги, тем самым смягчая сдвиги доменного распределения. Многочисленные эксперименты демонстрируют, что наш метод стабильно обеспечивает значительное улучшение производительности для широкого спектра MLLM. Бенчмарк и код доступны по адресу https://github.com/casiatao/IF-Bench.
English
Recent advances in multimodal large language models (MLLMs) have led to impressive progress across various benchmarks. However, their capability in understanding infrared images remains unexplored. To address this gap, we introduce IF-Bench, the first high-quality benchmark designed for evaluating multimodal understanding of infrared images. IF-Bench consists of 499 images sourced from 23 infrared datasets and 680 carefully curated visual question-answer pairs, covering 10 essential dimensions of image understanding. Based on this benchmark, we systematically evaluate over 40 open-source and closed-source MLLMs, employing cyclic evaluation, bilingual assessment, and hybrid judgment strategies to enhance the reliability of the results. Our analysis reveals how model scale, architecture, and inference paradigms affect infrared image comprehension, providing valuable insights for this area. Furthermore, we propose a training-free generative visual prompting (GenViP) method, which leverages advanced image editing models to translate infrared images into semantically and spatially aligned RGB counterparts, thereby mitigating domain distribution shifts. Extensive experiments demonstrate that our method consistently yields significant performance improvements across a wide range of MLLMs. The benchmark and code are available at https://github.com/casiatao/IF-Bench.