MoHoBench : Évaluation de l'honnêteté des modèles de langage multimodaux de grande taille via des questions visuelles sans réponse
MoHoBench: Assessing Honesty of Multimodal Large Language Models via Unanswerable Visual Questions
July 29, 2025
papers.authors: Yanxu Zhu, Shitong Duan, Xiangxu Zhang, Jitao Sang, Peng Zhang, Tun Lu, Xiao Zhou, Jing Yao, Xiaoyuan Yi, Xing Xie
cs.AI
papers.abstract
Récemment, les modèles de langage multimodaux de grande taille (MLLMs) ont réalisé des avancées considérables dans les tâches vision-langage, mais produisent parfois du contenu potentiellement nuisible ou peu fiable. Malgré des travaux substantiels sur la fiabilité des modèles de langage, la capacité des MLLMs à agir honnêtement, en particulier face à des questions visuellement impossibles à répondre, reste largement inexplorée. Ce travail présente la première évaluation systématique des comportements d'honnêteté parmi divers MLLMs. Nous ancrons l'honnêteté dans les comportements de réponse des modèles à des questions visuelles impossibles, définissons quatre types représentatifs de telles questions, et construisons MoHoBench, un benchmark d'honnêteté à grande échelle pour les MLLMs, composé de plus de 12 000 échantillons de questions visuelles, dont la qualité est garantie par un filtrage multi-étapes et une vérification humaine. En utilisant MoHoBench, nous avons évalué l'honnêteté de 28 MLLMs populaires et mené une analyse approfondie. Nos résultats montrent que : (1) la plupart des modèles échouent à refuser de répondre de manière appropriée lorsque nécessaire, et (2) l'honnêteté des MLLMs n'est pas uniquement une question de modélisation du langage, mais est profondément influencée par l'information visuelle, nécessitant le développement de méthodes dédiées pour l'alignement multimodal de l'honnêteté. Par conséquent, nous avons mis en œuvre des méthodes d'alignement initiales utilisant l'apprentissage supervisé et par préférence pour améliorer les comportements d'honnêteté, fournissant une base pour les travaux futurs sur les MLLMs fiables. Nos données et code sont disponibles à l'adresse https://github.com/DSTTSD/MoHoBench.
English
Recently Multimodal Large Language Models (MLLMs) have achieved considerable
advancements in vision-language tasks, yet produce potentially harmful or
untrustworthy content. Despite substantial work investigating the
trustworthiness of language models, MMLMs' capability to act honestly,
especially when faced with visually unanswerable questions, remains largely
underexplored. This work presents the first systematic assessment of honesty
behaviors across various MLLMs. We ground honesty in models' response behaviors
to unanswerable visual questions, define four representative types of such
questions, and construct MoHoBench, a large-scale MMLM honest benchmark,
consisting of 12k+ visual question samples, whose quality is guaranteed by
multi-stage filtering and human verification. Using MoHoBench, we benchmarked
the honesty of 28 popular MMLMs and conducted a comprehensive analysis. Our
findings show that: (1) most models fail to appropriately refuse to answer when
necessary, and (2) MMLMs' honesty is not solely a language modeling issue, but
is deeply influenced by visual information, necessitating the development of
dedicated methods for multimodal honesty alignment. Therefore, we implemented
initial alignment methods using supervised and preference learning to improve
honesty behavior, providing a foundation for future work on trustworthy MLLMs.
Our data and code can be found at https://github.com/DSTTSD/MoHoBench.