ChatPaper.aiChatPaper

크로스 모달리티 안전성 정렬

Cross-Modality Safety Alignment

June 21, 2024
저자: Siyin Wang, Xingsong Ye, Qinyuan Cheng, Junwen Duan, Shimin Li, Jinlan Fu, Xipeng Qiu, Xuanjing Huang
cs.AI

초록

인공 일반 지능(AGI)이 인간 생활의 다양한 측면에 점점 더 통합됨에 따라, 이러한 시스템의 안전성과 윤리적 정렬을 보장하는 것이 최우선 과제가 되었습니다. 기존 연구는 주로 단일 모달리티 위협에 초점을 맞추고 있는데, 이는 교차 모달리티 상호작용의 통합적이고 복잡한 특성을 고려할 때 충분하지 않을 수 있습니다. 우리는 교차 모달리티 안전 정렬을 평가하기 위해 '안전한 입력이지만 위험한 출력(Safe Inputs but Unsafe Output, SIUO)'이라는 새로운 안전 정렬 문제를 제안합니다. 구체적으로, 이 문제는 단일 모달리티가 독립적으로는 안전하지만 결합될 경우 위험하거나 비윤리적인 출력을 초래할 수 있는 경우를 고려합니다. 이 문제를 실증적으로 연구하기 위해, 우리는 자해, 불법 활동, 개인정보 침해 등 9개의 중요한 안전 영역을 포괄하는 SIUO라는 교차 모달리티 벤치마크를 개발했습니다. 우리의 연구 결과는 GPT-4V와 LLaVA와 같은 폐쇄형 및 오픈소스 LVLM(Large Vision-Language Models)에서 상당한 안전 취약점이 존재함을 보여주며, 현재 모델들이 복잡한 현실 세계 시나리오를 신뢰할 수 있게 해석하고 응답하는 데 부족함이 있음을 강조합니다.
English
As Artificial General Intelligence (AGI) becomes increasingly integrated into various facets of human life, ensuring the safety and ethical alignment of such systems is paramount. Previous studies primarily focus on single-modality threats, which may not suffice given the integrated and complex nature of cross-modality interactions. We introduce a novel safety alignment challenge called Safe Inputs but Unsafe Output (SIUO) to evaluate cross-modality safety alignment. Specifically, it considers cases where single modalities are safe independently but could potentially lead to unsafe or unethical outputs when combined. To empirically investigate this problem, we developed the SIUO, a cross-modality benchmark encompassing 9 critical safety domains, such as self-harm, illegal activities, and privacy violations. Our findings reveal substantial safety vulnerabilities in both closed- and open-source LVLMs, such as GPT-4V and LLaVA, underscoring the inadequacy of current models to reliably interpret and respond to complex, real-world scenarios.

Summary

AI-Generated Summary

PDF41November 29, 2024