IF-Bench: Avaliação e Aprimoramento de MLLMs para Imagens de Infravermelho com Prompt Visual Generativo

Resumo

Os recentes avanços nos modelos de linguagem grandes multimodais (MLLMs) têm levado a progressos impressionantes em vários benchmarks. No entanto, a sua capacidade de compreender imagens infravermelhas permanece inexplorada. Para colmatar esta lacuna, introduzimos o IF-Bench, o primeiro benchmark de alta qualidade concebido para avaliar a compreensão multimodal de imagens infravermelhas. O IF-Bench é composto por 499 imagens provenientes de 23 conjuntos de dados infravermelhos e 680 pares pergunta-resposta visuais cuidadosamente elaborados, abrangendo 10 dimensões essenciais da compreensão de imagens. Com base neste benchmark, avaliamos sistematicamente mais de 40 MLLMs de código aberto e proprietários, empregando estratégias de avaliação cíclica, avaliação bilíngue e julgamento híbrido para aumentar a fiabilidade dos resultados. A nossa análise revela como a escala do modelo, a arquitetura e os paradigmas de inferência afetam a compreensão de imagens infravermelhas, fornecendo informações valiosas para esta área. Além disso, propomos um método generativo de *prompting* visual sem necessidade de treino (GenViP), que aproveita modelos avançados de edição de imagens para traduzir imagens infravermelhas em contrapartidas RGB alinhadas semântica e espacialmente, mitigando assim os desvios de distribuição de domínio. Experiências extensivas demonstram que o nosso método produz consistentemente melhorias significativas de desempenho numa vasta gama de MLLMs. O benchmark e o código estão disponíveis em https://github.com/casiatao/IF-Bench.

English

Recent advances in multimodal large language models (MLLMs) have led to impressive progress across various benchmarks. However, their capability in understanding infrared images remains unexplored. To address this gap, we introduce IF-Bench, the first high-quality benchmark designed for evaluating multimodal understanding of infrared images. IF-Bench consists of 499 images sourced from 23 infrared datasets and 680 carefully curated visual question-answer pairs, covering 10 essential dimensions of image understanding. Based on this benchmark, we systematically evaluate over 40 open-source and closed-source MLLMs, employing cyclic evaluation, bilingual assessment, and hybrid judgment strategies to enhance the reliability of the results. Our analysis reveals how model scale, architecture, and inference paradigms affect infrared image comprehension, providing valuable insights for this area. Furthermore, we propose a training-free generative visual prompting (GenViP) method, which leverages advanced image editing models to translate infrared images into semantically and spatially aligned RGB counterparts, thereby mitigating domain distribution shifts. Extensive experiments demonstrate that our method consistently yields significant performance improvements across a wide range of MLLMs. The benchmark and code are available at https://github.com/casiatao/IF-Bench.

IF-Bench: Avaliação e Aprimoramento de MLLMs para Imagens de Infravermelho com Prompt Visual Generativo

IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting

Resumo

Support