ChatPaper.aiChatPaper

MoHoBench: Het beoordelen van de eerlijkheid van multimodale grote taalmodellen via onbeantwoordbare visuele vragen

MoHoBench: Assessing Honesty of Multimodal Large Language Models via Unanswerable Visual Questions

July 29, 2025
Auteurs: Yanxu Zhu, Shitong Duan, Xiangxu Zhang, Jitao Sang, Peng Zhang, Tun Lu, Xiao Zhou, Jing Yao, Xiaoyuan Yi, Xing Xie
cs.AI

Samenvatting

Onlangs hebben Multimodale Grote Taalmodellen (MLLMs) aanzienlijke vooruitgang geboekt in visie-taaltaken, maar produceren ze mogelijk schadelijke of onbetrouwbare inhoud. Ondanks aanzienlijk onderzoek naar de betrouwbaarheid van taalmodellen, blijft het vermogen van MMLMs om eerlijk te handelen, vooral wanneer ze worden geconfronteerd met visueel onbeantwoordbare vragen, grotendeels onderbelicht. Dit werk presenteert de eerste systematische evaluatie van eerlijkheidsgedrag bij verschillende MLLMs. We verankeren eerlijkheid in de reactiegedragingen van modellen op onbeantwoordbare visuele vragen, definiëren vier representatieve typen van dergelijke vragen, en construeren MoHoBench, een grootschalige MMLM-eerlijkheidsbenchmark, bestaande uit 12k+ visuele vraagvoorbeelden, waarvan de kwaliteit wordt gewaarborgd door meerfasenfiltering en menselijke verificatie. Met behulp van MoHoBench hebben we de eerlijkheid van 28 populaire MMLMs gebenchmarkt en een uitgebreide analyse uitgevoerd. Onze bevindingen tonen aan dat: (1) de meeste modellen er niet in slagen om gepast te weigeren te antwoorden wanneer dat nodig is, en (2) de eerlijkheid van MMLMs niet alleen een taalmodelprobleem is, maar diep wordt beïnvloed door visuele informatie, wat de ontwikkeling van specifieke methoden voor multimodale eerlijkheidsafstemming noodzakelijk maakt. Daarom hebben we initiële afstemmingsmethoden geïmplementeerd met behulp van begeleid en voorkeursleren om het eerlijkheidsgedrag te verbeteren, wat een basis biedt voor toekomstig werk aan betrouwbare MLLMs. Onze data en code zijn te vinden op https://github.com/DSTTSD/MoHoBench.
English
Recently Multimodal Large Language Models (MLLMs) have achieved considerable advancements in vision-language tasks, yet produce potentially harmful or untrustworthy content. Despite substantial work investigating the trustworthiness of language models, MMLMs' capability to act honestly, especially when faced with visually unanswerable questions, remains largely underexplored. This work presents the first systematic assessment of honesty behaviors across various MLLMs. We ground honesty in models' response behaviors to unanswerable visual questions, define four representative types of such questions, and construct MoHoBench, a large-scale MMLM honest benchmark, consisting of 12k+ visual question samples, whose quality is guaranteed by multi-stage filtering and human verification. Using MoHoBench, we benchmarked the honesty of 28 popular MMLMs and conducted a comprehensive analysis. Our findings show that: (1) most models fail to appropriately refuse to answer when necessary, and (2) MMLMs' honesty is not solely a language modeling issue, but is deeply influenced by visual information, necessitating the development of dedicated methods for multimodal honesty alignment. Therefore, we implemented initial alignment methods using supervised and preference learning to improve honesty behavior, providing a foundation for future work on trustworthy MLLMs. Our data and code can be found at https://github.com/DSTTSD/MoHoBench.
PDF22July 30, 2025