ChatPaper.aiChatPaper

クロスモダリティ安全性アラインメント

Cross-Modality Safety Alignment

June 21, 2024
著者: Siyin Wang, Xingsong Ye, Qinyuan Cheng, Junwen Duan, Shimin Li, Jinlan Fu, Xipeng Qiu, Xuanjing Huang
cs.AI

要旨

人工汎用知能(AGI)が人間生活の様々な側面にますます統合される中、そのようなシステムの安全性と倫理的整合性を確保することが極めて重要です。従来の研究は主に単一モダリティの脅威に焦点を当ててきましたが、モダリティ間の相互作用の統合的かつ複雑な性質を考えると、これでは不十分かもしれません。本論文では、モダリティ間の安全性整合性を評価するための新しい課題「安全な入力だが危険な出力(SIUO)」を提案します。具体的には、単一モダリティでは独立して安全であるが、組み合わせると危険または非倫理的な出力を引き起こす可能性があるケースを考慮します。この問題を実証的に調査するため、自傷行為、違法行為、プライバシー侵害など9つの重要な安全領域を網羅するSIUOというモダリティ間ベンチマークを開発しました。我々の調査結果は、GPT-4VやLLaVAなどのクローズドソースおよびオープンソースの大規模視覚言語モデル(LVLM)に重大な安全性の脆弱性があることを明らかにし、現在のモデルが複雑な現実世界のシナリオを確実に解釈し対応する能力が不十分であることを浮き彫りにしています。
English
As Artificial General Intelligence (AGI) becomes increasingly integrated into various facets of human life, ensuring the safety and ethical alignment of such systems is paramount. Previous studies primarily focus on single-modality threats, which may not suffice given the integrated and complex nature of cross-modality interactions. We introduce a novel safety alignment challenge called Safe Inputs but Unsafe Output (SIUO) to evaluate cross-modality safety alignment. Specifically, it considers cases where single modalities are safe independently but could potentially lead to unsafe or unethical outputs when combined. To empirically investigate this problem, we developed the SIUO, a cross-modality benchmark encompassing 9 critical safety domains, such as self-harm, illegal activities, and privacy violations. Our findings reveal substantial safety vulnerabilities in both closed- and open-source LVLMs, such as GPT-4V and LLaVA, underscoring the inadequacy of current models to reliably interpret and respond to complex, real-world scenarios.

Summary

AI-Generated Summary

PDF41November 29, 2024