MoHoBench: Het beoordelen van de eerlijkheid van multimodale grote taalmodellen via onbeantwoordbare visuele vragen
MoHoBench: Assessing Honesty of Multimodal Large Language Models via Unanswerable Visual Questions
July 29, 2025
Auteurs: Yanxu Zhu, Shitong Duan, Xiangxu Zhang, Jitao Sang, Peng Zhang, Tun Lu, Xiao Zhou, Jing Yao, Xiaoyuan Yi, Xing Xie
cs.AI
Samenvatting
Onlangs hebben Multimodale Grote Taalmodellen (MLLMs) aanzienlijke vooruitgang geboekt in visie-taaltaken, maar produceren ze mogelijk schadelijke of onbetrouwbare inhoud. Ondanks aanzienlijk onderzoek naar de betrouwbaarheid van taalmodellen, blijft het vermogen van MMLMs om eerlijk te handelen, vooral wanneer ze worden geconfronteerd met visueel onbeantwoordbare vragen, grotendeels onderbelicht. Dit werk presenteert de eerste systematische evaluatie van eerlijkheidsgedrag bij verschillende MLLMs. We verankeren eerlijkheid in de reactiegedragingen van modellen op onbeantwoordbare visuele vragen, definiëren vier representatieve typen van dergelijke vragen, en construeren MoHoBench, een grootschalige MMLM-eerlijkheidsbenchmark, bestaande uit 12k+ visuele vraagvoorbeelden, waarvan de kwaliteit wordt gewaarborgd door meerfasenfiltering en menselijke verificatie. Met behulp van MoHoBench hebben we de eerlijkheid van 28 populaire MMLMs gebenchmarkt en een uitgebreide analyse uitgevoerd. Onze bevindingen tonen aan dat: (1) de meeste modellen er niet in slagen om gepast te weigeren te antwoorden wanneer dat nodig is, en (2) de eerlijkheid van MMLMs niet alleen een taalmodelprobleem is, maar diep wordt beïnvloed door visuele informatie, wat de ontwikkeling van specifieke methoden voor multimodale eerlijkheidsafstemming noodzakelijk maakt. Daarom hebben we initiële afstemmingsmethoden geïmplementeerd met behulp van begeleid en voorkeursleren om het eerlijkheidsgedrag te verbeteren, wat een basis biedt voor toekomstig werk aan betrouwbare MLLMs. Onze data en code zijn te vinden op https://github.com/DSTTSD/MoHoBench.
English
Recently Multimodal Large Language Models (MLLMs) have achieved considerable
advancements in vision-language tasks, yet produce potentially harmful or
untrustworthy content. Despite substantial work investigating the
trustworthiness of language models, MMLMs' capability to act honestly,
especially when faced with visually unanswerable questions, remains largely
underexplored. This work presents the first systematic assessment of honesty
behaviors across various MLLMs. We ground honesty in models' response behaviors
to unanswerable visual questions, define four representative types of such
questions, and construct MoHoBench, a large-scale MMLM honest benchmark,
consisting of 12k+ visual question samples, whose quality is guaranteed by
multi-stage filtering and human verification. Using MoHoBench, we benchmarked
the honesty of 28 popular MMLMs and conducted a comprehensive analysis. Our
findings show that: (1) most models fail to appropriately refuse to answer when
necessary, and (2) MMLMs' honesty is not solely a language modeling issue, but
is deeply influenced by visual information, necessitating the development of
dedicated methods for multimodal honesty alignment. Therefore, we implemented
initial alignment methods using supervised and preference learning to improve
honesty behavior, providing a foundation for future work on trustworthy MLLMs.
Our data and code can be found at https://github.com/DSTTSD/MoHoBench.