MoHoBench: Оценка честности мультимодальных больших языковых моделей с помощью неразрешимых визуальных вопросов
MoHoBench: Assessing Honesty of Multimodal Large Language Models via Unanswerable Visual Questions
July 29, 2025
Авторы: Yanxu Zhu, Shitong Duan, Xiangxu Zhang, Jitao Sang, Peng Zhang, Tun Lu, Xiao Zhou, Jing Yao, Xiaoyuan Yi, Xing Xie
cs.AI
Аннотация
В последнее время мультимодальные большие языковые модели (MLLMs) достигли значительных успехов в задачах, связанных с обработкой визуальной и текстовой информации, однако они могут генерировать потенциально вредный или ненадежный контент. Несмотря на существенные исследования, посвященные изучению надежности языковых моделей, способность MLLMs действовать честно, особенно в ситуациях, когда визуальные вопросы не имеют ответа, остается недостаточно изученной. В данной работе представлена первая систематическая оценка честного поведения различных MLLMs. Мы определяем честность через поведение моделей при ответах на неразрешимые визуальные вопросы, выделяем четыре репрезентативных типа таких вопросов и создаем MoHoBench — крупномасштабный бенчмарк для оценки честности MLLMs, состоящий из более чем 12 тысяч образцов визуальных вопросов, качество которых обеспечивается многоэтапной фильтрацией и проверкой людьми. Используя MoHoBench, мы провели оценку честности 28 популярных MLLMs и выполнили всесторонний анализ. Наши результаты показывают, что: (1) большинство моделей не способны корректно отказаться от ответа, когда это необходимо, и (2) честность MLLMs не является исключительно проблемой языкового моделирования, а глубоко зависит от визуальной информации, что требует разработки специализированных методов для мультимодального согласования честности. В связи с этим мы реализовали начальные методы согласования с использованием обучения с учителем и обучения на основе предпочтений для улучшения честного поведения, что закладывает основу для будущих исследований в области надежных MLLMs. Наши данные и код доступны по адресу https://github.com/DSTTSD/MoHoBench.
English
Recently Multimodal Large Language Models (MLLMs) have achieved considerable
advancements in vision-language tasks, yet produce potentially harmful or
untrustworthy content. Despite substantial work investigating the
trustworthiness of language models, MMLMs' capability to act honestly,
especially when faced with visually unanswerable questions, remains largely
underexplored. This work presents the first systematic assessment of honesty
behaviors across various MLLMs. We ground honesty in models' response behaviors
to unanswerable visual questions, define four representative types of such
questions, and construct MoHoBench, a large-scale MMLM honest benchmark,
consisting of 12k+ visual question samples, whose quality is guaranteed by
multi-stage filtering and human verification. Using MoHoBench, we benchmarked
the honesty of 28 popular MMLMs and conducted a comprehensive analysis. Our
findings show that: (1) most models fail to appropriately refuse to answer when
necessary, and (2) MMLMs' honesty is not solely a language modeling issue, but
is deeply influenced by visual information, necessitating the development of
dedicated methods for multimodal honesty alignment. Therefore, we implemented
initial alignment methods using supervised and preference learning to improve
honesty behavior, providing a foundation for future work on trustworthy MLLMs.
Our data and code can be found at https://github.com/DSTTSD/MoHoBench.