ChatPaper.aiChatPaper

MoHoBench: Valutazione dell'Onestà dei Modelli Linguistici Multimodali di Grande Scala tramite Domande Visive Irrisolvibili

MoHoBench: Assessing Honesty of Multimodal Large Language Models via Unanswerable Visual Questions

July 29, 2025
Autori: Yanxu Zhu, Shitong Duan, Xiangxu Zhang, Jitao Sang, Peng Zhang, Tun Lu, Xiao Zhou, Jing Yao, Xiaoyuan Yi, Xing Xie
cs.AI

Abstract

Recentemente, i Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno ottenuto progressi significativi nei compiti di visione e linguaggio, ma producono contenuti potenzialmente dannosi o inaffidabili. Nonostante il notevole lavoro svolto per indagare l'affidabilità dei modelli linguistici, la capacità degli MMLMs di agire in modo onesto, specialmente di fronte a domande visive a cui non è possibile rispondere, rimane in gran parte inesplorata. Questo lavoro presenta la prima valutazione sistematica dei comportamenti di onestà in vari MLLMs. Definiamo l'onestà nei comportamenti di risposta dei modelli a domande visive irrisolvibili, identifichiamo quattro tipi rappresentativi di tali domande e costruiamo MoHoBench, un benchmark su larga scala per l'onestà degli MMLMs, composto da oltre 12.000 campioni di domande visive, la cui qualità è garantita da un processo di filtraggio a più stadi e da una verifica umana. Utilizzando MoHoBench, abbiamo valutato l'onestà di 28 MMLMs popolari e condotto un'analisi completa. I nostri risultati mostrano che: (1) la maggior parte dei modelli non riesce a rifiutarsi di rispondere quando necessario, e (2) l'onestà degli MMLMs non è solo una questione di modellazione del linguaggio, ma è profondamente influenzata dalle informazioni visive, rendendo necessario lo sviluppo di metodi dedicati per l'allineamento multimodale dell'onestà. Pertanto, abbiamo implementato metodi iniziali di allineamento utilizzando l'apprendimento supervisionato e l'apprendimento per preferenze per migliorare il comportamento di onestà, fornendo una base per futuri lavori su MLLMs affidabili. I nostri dati e il codice sono disponibili all'indirizzo https://github.com/DSTTSD/MoHoBench.
English
Recently Multimodal Large Language Models (MLLMs) have achieved considerable advancements in vision-language tasks, yet produce potentially harmful or untrustworthy content. Despite substantial work investigating the trustworthiness of language models, MMLMs' capability to act honestly, especially when faced with visually unanswerable questions, remains largely underexplored. This work presents the first systematic assessment of honesty behaviors across various MLLMs. We ground honesty in models' response behaviors to unanswerable visual questions, define four representative types of such questions, and construct MoHoBench, a large-scale MMLM honest benchmark, consisting of 12k+ visual question samples, whose quality is guaranteed by multi-stage filtering and human verification. Using MoHoBench, we benchmarked the honesty of 28 popular MMLMs and conducted a comprehensive analysis. Our findings show that: (1) most models fail to appropriately refuse to answer when necessary, and (2) MMLMs' honesty is not solely a language modeling issue, but is deeply influenced by visual information, necessitating the development of dedicated methods for multimodal honesty alignment. Therefore, we implemented initial alignment methods using supervised and preference learning to improve honesty behavior, providing a foundation for future work on trustworthy MLLMs. Our data and code can be found at https://github.com/DSTTSD/MoHoBench.
PDF22July 30, 2025