Évaluation de la fiabilité des modèles de langage multimodaux de grande envergure : une étude approfondie
Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study
June 11, 2024
Auteurs: Yichi Zhang, Yao Huang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Yifan Wang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong, Jun Zhu
cs.AI
Résumé
Malgré les capacités supérieures des Modèles de Langage Multimodaux de Grande Taille (MLLMs) dans diverses tâches, ils continuent de faire face à des défis importants en matière de fiabilité. Cependant, la littérature actuelle sur l'évaluation des MLLMs dignes de confiance reste limitée, manquant d'une évaluation holistique pour offrir des insights approfondis sur les améliorations futures. Dans ce travail, nous établissons MultiTrust, le premier benchmark complet et unifié sur la fiabilité des MLLMs à travers cinq aspects principaux : la véracité, la sécurité, la robustesse, l'équité et la confidentialité. Notre benchmark utilise une stratégie d'évaluation rigoureuse qui aborde à la fois les risques multimodaux et les impacts intermodaux, englobant 32 tâches variées avec des ensembles de données soigneusement sélectionnés. Des expériences approfondies avec 21 MLLMs modernes révèlent certains problèmes et risques de fiabilité jusque-là inexplorés, mettant en lumière les complexités introduites par la multimodalité et soulignant la nécessité de méthodologies avancées pour améliorer leur fiabilité. Par exemple, les modèles propriétaires typiques peinent encore à percevoir des images visuellement déroutantes et sont vulnérables aux attaques de jailbreaking multimodal et aux attaques adverses ; les MLLMs sont plus enclins à divulguer des informations confidentielles dans le texte et à révéler des biais idéologiques et culturels même lorsqu'ils sont associés à des images non pertinentes lors de l'inférence, indiquant que la multimodalité amplifie les risques internes des LLMs de base. De plus, nous publions une boîte à outils évolutive pour la recherche standardisée sur la fiabilité, visant à faciliter les avancées futures dans ce domaine important. Le code et les ressources sont disponibles publiquement à l'adresse : https://multi-trust.github.io/.
English
Despite the superior capabilities of Multimodal Large Language Models (MLLMs)
across diverse tasks, they still face significant trustworthiness challenges.
Yet, current literature on the assessment of trustworthy MLLMs remains limited,
lacking a holistic evaluation to offer thorough insights into future
improvements. In this work, we establish MultiTrust, the first comprehensive
and unified benchmark on the trustworthiness of MLLMs across five primary
aspects: truthfulness, safety, robustness, fairness, and privacy. Our benchmark
employs a rigorous evaluation strategy that addresses both multimodal risks and
cross-modal impacts, encompassing 32 diverse tasks with self-curated datasets.
Extensive experiments with 21 modern MLLMs reveal some previously unexplored
trustworthiness issues and risks, highlighting the complexities introduced by
the multimodality and underscoring the necessity for advanced methodologies to
enhance their reliability. For instance, typical proprietary models still
struggle with the perception of visually confusing images and are vulnerable to
multimodal jailbreaking and adversarial attacks; MLLMs are more inclined to
disclose privacy in text and reveal ideological and cultural biases even when
paired with irrelevant images in inference, indicating that the multimodality
amplifies the internal risks from base LLMs. Additionally, we release a
scalable toolbox for standardized trustworthiness research, aiming to
facilitate future advancements in this important field. Code and resources are
publicly available at: https://multi-trust.github.io/.Summary
AI-Generated Summary