ChatPaper.aiChatPaper

MoHoBench: Evaluación de la Honestidad en Modelos de Lenguaje Multimodales de Gran Escala mediante Preguntas Visuales Incontestables

MoHoBench: Assessing Honesty of Multimodal Large Language Models via Unanswerable Visual Questions

July 29, 2025
Autores: Yanxu Zhu, Shitong Duan, Xiangxu Zhang, Jitao Sang, Peng Zhang, Tun Lu, Xiao Zhou, Jing Yao, Xiaoyuan Yi, Xing Xie
cs.AI

Resumen

Recientemente, los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han logrado avances considerables en tareas de visión y lenguaje, aunque también generan contenido potencialmente dañino o poco confiable. A pesar de los esfuerzos sustanciales para investigar la confiabilidad de los modelos de lenguaje, la capacidad de los MLLMs para actuar con honestidad, especialmente frente a preguntas visualmente irresolubles, sigue siendo en gran medida inexplorada. Este trabajo presenta la primera evaluación sistemática de los comportamientos de honestidad en diversos MLLMs. Basamos la honestidad en los comportamientos de respuesta de los modelos ante preguntas visuales irresolubles, definimos cuatro tipos representativos de dichas preguntas y construimos MoHoBench, un benchmark de honestidad a gran escala para MLLMs, que consta de más de 12,000 muestras de preguntas visuales, cuya calidad está garantizada por un filtrado en múltiples etapas y verificación humana. Utilizando MoHoBench, evaluamos la honestidad de 28 MLLMs populares y realizamos un análisis exhaustivo. Nuestros hallazgos muestran que: (1) la mayoría de los modelos no se niegan adecuadamente a responder cuando es necesario, y (2) la honestidad de los MLLMs no es únicamente un problema de modelado del lenguaje, sino que está profundamente influenciada por la información visual, lo que requiere el desarrollo de métodos dedicados para la alineación de la honestidad multimodal. Por lo tanto, implementamos métodos iniciales de alineación utilizando aprendizaje supervisado y basado en preferencias para mejorar el comportamiento de honestidad, sentando las bases para futuros trabajos en MLLMs confiables. Nuestros datos y código están disponibles en https://github.com/DSTTSD/MoHoBench.
English
Recently Multimodal Large Language Models (MLLMs) have achieved considerable advancements in vision-language tasks, yet produce potentially harmful or untrustworthy content. Despite substantial work investigating the trustworthiness of language models, MMLMs' capability to act honestly, especially when faced with visually unanswerable questions, remains largely underexplored. This work presents the first systematic assessment of honesty behaviors across various MLLMs. We ground honesty in models' response behaviors to unanswerable visual questions, define four representative types of such questions, and construct MoHoBench, a large-scale MMLM honest benchmark, consisting of 12k+ visual question samples, whose quality is guaranteed by multi-stage filtering and human verification. Using MoHoBench, we benchmarked the honesty of 28 popular MMLMs and conducted a comprehensive analysis. Our findings show that: (1) most models fail to appropriately refuse to answer when necessary, and (2) MMLMs' honesty is not solely a language modeling issue, but is deeply influenced by visual information, necessitating the development of dedicated methods for multimodal honesty alignment. Therefore, we implemented initial alignment methods using supervised and preference learning to improve honesty behavior, providing a foundation for future work on trustworthy MLLMs. Our data and code can be found at https://github.com/DSTTSD/MoHoBench.
PDF22July 30, 2025