ChatPaper.aiChatPaper

멀티모달 대형 언어 모델의 신뢰성 벤치마킹: 포괄적 연구

Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study

June 11, 2024
저자: Yichi Zhang, Yao Huang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Yifan Wang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong, Jun Zhu
cs.AI

초록

다양한 작업에서 뛰어난 성능을 보이는 다중모달 대형 언어 모델(MLLMs)에도 불구하고, 여전히 신뢰성과 관련된 상당한 과제들이 존재합니다. 그러나 현재까지 신뢰할 수 있는 MLLMs를 평가하는 문헌은 제한적이며, 향후 개선을 위한 포괄적인 통찰을 제공하는 종합적인 평가가 부족한 실정입니다. 본 연구에서는 다섯 가지 주요 측면(진실성, 안전성, 견고성, 공정성, 프라이버시)에 걸쳐 MLLMs의 신뢰성을 평가하는 최초의 포괄적이고 통합된 벤치마크인 MultiTrust를 구축했습니다. 우리의 벤치마크는 다중모달 리스크와 교차모달 영향을 모두 고려한 엄격한 평가 전략을 채택하며, 자체 구축한 데이터셋을 기반으로 32가지 다양한 작업을 포함합니다. 21개의 현대적 MLLMs를 대상으로 한 광범위한 실험을 통해 이전에 탐구되지 않았던 신뢰성 문제와 리스크를 발견했으며, 다중모달성으로 인해 발생하는 복잡성을 강조하고 신뢰성을 향상시키기 위한 고급 방법론의 필요성을 확인했습니다. 예를 들어, 일반적인 상용 모델들은 시각적으로 혼란스러운 이미지를 인식하는 데 어려움을 겪으며, 다중모탈 탈옥 및 적대적 공격에 취약합니다. 또한, MLLMs는 텍스트에서 프라이버시를 노출시키는 경향이 더 크고, 추론 과정에서 관련 없는 이미지와 결합된 경우에도 이데올로기적 및 문화적 편향을 드러내는데, 이는 다중모달성이 기본 LLMs의 내재적 리스크를 증폭시킨다는 것을 시사합니다. 추가적으로, 우리는 표준화된 신뢰성 연구를 촉진하기 위해 확장 가능한 툴박스를 공개하여, 이 중요한 분야의 미래 발전을 지원하고자 합니다. 코드와 리소스는 https://multi-trust.github.io/에서 공개되어 있습니다.
English
Despite the superior capabilities of Multimodal Large Language Models (MLLMs) across diverse tasks, they still face significant trustworthiness challenges. Yet, current literature on the assessment of trustworthy MLLMs remains limited, lacking a holistic evaluation to offer thorough insights into future improvements. In this work, we establish MultiTrust, the first comprehensive and unified benchmark on the trustworthiness of MLLMs across five primary aspects: truthfulness, safety, robustness, fairness, and privacy. Our benchmark employs a rigorous evaluation strategy that addresses both multimodal risks and cross-modal impacts, encompassing 32 diverse tasks with self-curated datasets. Extensive experiments with 21 modern MLLMs reveal some previously unexplored trustworthiness issues and risks, highlighting the complexities introduced by the multimodality and underscoring the necessity for advanced methodologies to enhance their reliability. For instance, typical proprietary models still struggle with the perception of visually confusing images and are vulnerable to multimodal jailbreaking and adversarial attacks; MLLMs are more inclined to disclose privacy in text and reveal ideological and cultural biases even when paired with irrelevant images in inference, indicating that the multimodality amplifies the internal risks from base LLMs. Additionally, we release a scalable toolbox for standardized trustworthiness research, aiming to facilitate future advancements in this important field. Code and resources are publicly available at: https://multi-trust.github.io/.

Summary

AI-Generated Summary

PDF174November 28, 2024