MoHoBench: Bewertung der Ehrlichkeit multimodaler großer Sprachmodelle durch unbeantwortbare visuelle Fragen
MoHoBench: Assessing Honesty of Multimodal Large Language Models via Unanswerable Visual Questions
July 29, 2025
papers.authors: Yanxu Zhu, Shitong Duan, Xiangxu Zhang, Jitao Sang, Peng Zhang, Tun Lu, Xiao Zhou, Jing Yao, Xiaoyuan Yi, Xing Xie
cs.AI
papers.abstract
Kürzlich haben Multimodale Große Sprachmodelle (MLLMs) erhebliche Fortschritte in visuell-sprachlichen Aufgaben erzielt, produzieren jedoch potenziell schädliche oder unzuverlässige Inhalte. Trotz umfangreicher Arbeiten zur Untersuchung der Vertrauenswürdigkeit von Sprachmodellen bleibt die Fähigkeit von MMLMs, ehrlich zu handeln, insbesondere bei visuell unbeantwortbaren Fragen, weitgehend unerforscht. Diese Arbeit präsentiert die erste systematische Bewertung von Ehrlichkeitsverhalten über verschiedene MLLMs hinweg. Wir verankern Ehrlichkeit in den Antwortverhalten der Modelle auf unbeantwortbare visuelle Fragen, definieren vier repräsentative Arten solcher Fragen und konstruieren MoHoBench, einen groß angelegten MMLM-Ehrlichkeits-Benchmark, der aus über 12.000 visuellen Fragebeispielen besteht, deren Qualität durch mehrstufige Filterung und menschliche Überprüfung gewährleistet ist. Mit MoHoBench haben wir die Ehrlichkeit von 28 populären MMLMs bewertet und eine umfassende Analyse durchgeführt. Unsere Ergebnisse zeigen: (1) Die meisten Modelle versagen darin, angemessen zu verweigern, wenn es notwendig ist, und (2) die Ehrlichkeit von MMLMs ist nicht allein ein Problem der Sprachmodellierung, sondern wird stark von visuellen Informationen beeinflusst, was die Entwicklung spezieller Methoden für multimodale Ehrlichkeitsausrichtung erforderlich macht. Daher haben wir erste Ausrichtungsmethoden unter Verwendung von überwachtem und Präferenzlernen implementiert, um das Ehrlichkeitsverhalten zu verbessern, und legen damit eine Grundlage für zukünftige Arbeiten an vertrauenswürdigen MLLMs. Unsere Daten und Code sind unter https://github.com/DSTTSD/MoHoBench verfügbar.
English
Recently Multimodal Large Language Models (MLLMs) have achieved considerable
advancements in vision-language tasks, yet produce potentially harmful or
untrustworthy content. Despite substantial work investigating the
trustworthiness of language models, MMLMs' capability to act honestly,
especially when faced with visually unanswerable questions, remains largely
underexplored. This work presents the first systematic assessment of honesty
behaviors across various MLLMs. We ground honesty in models' response behaviors
to unanswerable visual questions, define four representative types of such
questions, and construct MoHoBench, a large-scale MMLM honest benchmark,
consisting of 12k+ visual question samples, whose quality is guaranteed by
multi-stage filtering and human verification. Using MoHoBench, we benchmarked
the honesty of 28 popular MMLMs and conducted a comprehensive analysis. Our
findings show that: (1) most models fail to appropriately refuse to answer when
necessary, and (2) MMLMs' honesty is not solely a language modeling issue, but
is deeply influenced by visual information, necessitating the development of
dedicated methods for multimodal honesty alignment. Therefore, we implemented
initial alignment methods using supervised and preference learning to improve
honesty behavior, providing a foundation for future work on trustworthy MLLMs.
Our data and code can be found at https://github.com/DSTTSD/MoHoBench.