MoHoBench: Avaliando a Honestidade de Modelos de Linguagem Multimodais de Grande Escala por meio de Perguntas Visuais Inrespondíveis
MoHoBench: Assessing Honesty of Multimodal Large Language Models via Unanswerable Visual Questions
July 29, 2025
Autores: Yanxu Zhu, Shitong Duan, Xiangxu Zhang, Jitao Sang, Peng Zhang, Tun Lu, Xiao Zhou, Jing Yao, Xiaoyuan Yi, Xing Xie
cs.AI
Resumo
Recentemente, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) alcançaram avanços consideráveis em tarefas de visão e linguagem, mas ainda produzem conteúdo potencialmente prejudicial ou não confiável. Apesar de um trabalho substancial investigando a confiabilidade dos modelos de linguagem, a capacidade dos MLLMs de agir com honestidade, especialmente quando confrontados com perguntas visualmente impossíveis de responder, permanece amplamente inexplorada. Este trabalho apresenta a primeira avaliação sistemática dos comportamentos de honestidade em vários MLLMs. Fundamentamos a honestidade nos comportamentos de resposta dos modelos a perguntas visuais impossíveis de responder, definimos quatro tipos representativos de tais perguntas e construímos o MoHoBench, um benchmark de honestidade em grande escala para MLLMs, composto por mais de 12 mil amostras de perguntas visuais, cuja qualidade é garantida por filtragem em múltiplas etapas e verificação humana. Utilizando o MoHoBench, avaliamos a honestidade de 28 MLLMs populares e conduzimos uma análise abrangente. Nossas descobertas mostram que: (1) a maioria dos modelos falha em recusar-se adequadamente a responder quando necessário, e (2) a honestidade dos MLLMs não é apenas uma questão de modelagem de linguagem, mas é profundamente influenciada por informações visuais, exigindo o desenvolvimento de métodos dedicados para alinhamento de honestidade multimodal. Portanto, implementamos métodos iniciais de alinhamento usando aprendizado supervisionado e de preferência para melhorar o comportamento de honestidade, fornecendo uma base para trabalhos futuros em MLLMs confiáveis. Nossos dados e código podem ser encontrados em https://github.com/DSTTSD/MoHoBench.
English
Recently Multimodal Large Language Models (MLLMs) have achieved considerable
advancements in vision-language tasks, yet produce potentially harmful or
untrustworthy content. Despite substantial work investigating the
trustworthiness of language models, MMLMs' capability to act honestly,
especially when faced with visually unanswerable questions, remains largely
underexplored. This work presents the first systematic assessment of honesty
behaviors across various MLLMs. We ground honesty in models' response behaviors
to unanswerable visual questions, define four representative types of such
questions, and construct MoHoBench, a large-scale MMLM honest benchmark,
consisting of 12k+ visual question samples, whose quality is guaranteed by
multi-stage filtering and human verification. Using MoHoBench, we benchmarked
the honesty of 28 popular MMLMs and conducted a comprehensive analysis. Our
findings show that: (1) most models fail to appropriately refuse to answer when
necessary, and (2) MMLMs' honesty is not solely a language modeling issue, but
is deeply influenced by visual information, necessitating the development of
dedicated methods for multimodal honesty alignment. Therefore, we implemented
initial alignment methods using supervised and preference learning to improve
honesty behavior, providing a foundation for future work on trustworthy MLLMs.
Our data and code can be found at https://github.com/DSTTSD/MoHoBench.