IF-Bench: 생성형 시각 프롬프팅을 통한 적외선 이미지용 MLLM 벤치마킹 및 성능 향상
IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting
December 10, 2025
저자: Tao Zhang, Yuyang Hong, Yang Xia, Kun Ding, Zeyu Zhang, Ying Wang, Shiming Xiang, Chunhong Pan
cs.AI
초록
최근 멀티모달 대규모 언어 모델(MLLM)의 발전으로 다양한 벤치마크에서 인상적인 진전이 이루어졌습니다. 그러나 적외선 영상 이해 능력은 아직 탐구되지 않은 상태입니다. 이러한 격차를 해결하기 위해 우리는 적외선 영식에 대한 멀티모달 이해 능력을 평가하기 위해 설계된 최초의 고품질 벤치마크인 IF-Bench를 소개합니다. IF-Bench는 23개의 적외선 데이터셋에서 수집한 499개의 영상과 10가지 핵심 영상 이해 차원을 포괄하는 신중하게 구성된 680개의 시각 질의-응답 쌍으로 구성됩니다. 이를 바탕으로 40개 이상의 오픈소스 및 클로즈드소스 MLLM을 체계적으로 평가하며, 순환 평가, 이중 언어 평가, 혼합 판단 전략을 활용하여 결과의 신뢰성을 높였습니다. 우리의 분석은 모델 규모, 아키텍처, 추론 패러다임이 적외선 영상 이해에 미치는 영향을 밝혀 이 분야에 유용한 통찰을 제공합니다. 나아가 우리는 고급 영상 편집 모델을 활용하여 적외선 영상을 의미론적·공간적으로 정렬된 RGB 영상으로 변환함으로써 도메인 분포 차이를 완화하는 학습이 필요 없는 생성형 시각 프롬프팅(GenViP) 방법을 제안합니다. 폭넓은 실험을 통해 우리의 방법이 다양한 MLLM에 걸쳐 지속적으로 상당한 성능 향상을 가져온다는 것을 입증했습니다. 벤치마크와 코드는 https://github.com/casiatao/IF-Bench에서 이용할 수 있습니다.
English
Recent advances in multimodal large language models (MLLMs) have led to impressive progress across various benchmarks. However, their capability in understanding infrared images remains unexplored. To address this gap, we introduce IF-Bench, the first high-quality benchmark designed for evaluating multimodal understanding of infrared images. IF-Bench consists of 499 images sourced from 23 infrared datasets and 680 carefully curated visual question-answer pairs, covering 10 essential dimensions of image understanding. Based on this benchmark, we systematically evaluate over 40 open-source and closed-source MLLMs, employing cyclic evaluation, bilingual assessment, and hybrid judgment strategies to enhance the reliability of the results. Our analysis reveals how model scale, architecture, and inference paradigms affect infrared image comprehension, providing valuable insights for this area. Furthermore, we propose a training-free generative visual prompting (GenViP) method, which leverages advanced image editing models to translate infrared images into semantically and spatially aligned RGB counterparts, thereby mitigating domain distribution shifts. Extensive experiments demonstrate that our method consistently yields significant performance improvements across a wide range of MLLMs. The benchmark and code are available at https://github.com/casiatao/IF-Bench.