ChatPaper.aiChatPaper

マルチモーダル大規模言語モデルの信頼性評価:包括的研究

Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study

June 11, 2024
著者: Yichi Zhang, Yao Huang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Yifan Wang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong, Jun Zhu
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLMs)は多様なタスクにおいて優れた能力を発揮するにもかかわらず、信頼性に関する重大な課題に直面しています。しかし、信頼性のあるMLLMsを評価するための現在の研究は限られており、将来の改善に向けた包括的な洞察を提供するための全体的な評価が欠如しています。本研究では、信頼性に関する5つの主要な側面(真実性、安全性、堅牢性、公平性、プライバシー)にわたるMLLMsの信頼性を評価する初の包括的かつ統一されたベンチマーク「MultiTrust」を確立しました。私たちのベンチマークは、マルチモーダルリスクとクロスモーダル影響の両方に対処する厳密な評価戦略を採用し、独自に作成したデータセットを用いた32の多様なタスクを網羅しています。21の最新MLLMsを用いた広範な実験により、これまで未発見だった信頼性の問題やリスクが明らかになり、マルチモーダル性がもたらす複雑さが浮き彫りとなり、信頼性を向上させるための先進的な方法論の必要性が強調されました。例えば、一般的なプロプライエタリモデルは、視覚的に混乱を招く画像の認識に依然として苦戦しており、マルチモーダルジャイルブレイキングや敵対的攻撃に対して脆弱です。また、MLLMsはテキストにおいてプライバシーを漏洩しやすく、推論時に無関係な画像と組み合わせた場合でも、イデオロギーや文化的バイアスを露呈する傾向があり、マルチモーダル性が基盤となるLLMsからの内部リスクを増幅していることが示されています。さらに、標準化された信頼性研究を促進するためのスケーラブルなツールボックスを公開し、この重要な分野における将来の進展を支援することを目指しています。コードとリソースは以下のURLで公開されています: https://multi-trust.github.io/。
English
Despite the superior capabilities of Multimodal Large Language Models (MLLMs) across diverse tasks, they still face significant trustworthiness challenges. Yet, current literature on the assessment of trustworthy MLLMs remains limited, lacking a holistic evaluation to offer thorough insights into future improvements. In this work, we establish MultiTrust, the first comprehensive and unified benchmark on the trustworthiness of MLLMs across five primary aspects: truthfulness, safety, robustness, fairness, and privacy. Our benchmark employs a rigorous evaluation strategy that addresses both multimodal risks and cross-modal impacts, encompassing 32 diverse tasks with self-curated datasets. Extensive experiments with 21 modern MLLMs reveal some previously unexplored trustworthiness issues and risks, highlighting the complexities introduced by the multimodality and underscoring the necessity for advanced methodologies to enhance their reliability. For instance, typical proprietary models still struggle with the perception of visually confusing images and are vulnerable to multimodal jailbreaking and adversarial attacks; MLLMs are more inclined to disclose privacy in text and reveal ideological and cultural biases even when paired with irrelevant images in inference, indicating that the multimodality amplifies the internal risks from base LLMs. Additionally, we release a scalable toolbox for standardized trustworthiness research, aiming to facilitate future advancements in this important field. Code and resources are publicly available at: https://multi-trust.github.io/.

Summary

AI-Generated Summary

PDF174November 28, 2024