Allineamento di Sicurezza Cross-Modalità
Cross-Modality Safety Alignment
June 21, 2024
Autori: Siyin Wang, Xingsong Ye, Qinyuan Cheng, Junwen Duan, Shimin Li, Jinlan Fu, Xipeng Qiu, Xuanjing Huang
cs.AI
Abstract
Man mano che l'Intelligenza Artificiale Generale (AGI) si integra sempre più in vari aspetti della vita umana, garantire la sicurezza e l'allineamento etico di tali sistemi è di fondamentale importanza. Gli studi precedenti si concentrano principalmente su minacce a singola modalità, che potrebbero non essere sufficienti data la natura integrata e complessa delle interazioni cross-modalità. Introduciamo una nuova sfida di allineamento della sicurezza chiamata Safe Inputs but Unsafe Output (SIUO) per valutare l'allineamento della sicurezza cross-modalità. Nello specifico, considera casi in cui le singole modalità sono sicure indipendentemente, ma potrebbero potenzialmente portare a output non sicuri o non etici se combinate. Per indagare empiricamente questo problema, abbiamo sviluppato il SIUO, un benchmark cross-modalità che comprende 9 domini critici di sicurezza, come autolesionismo, attività illegali e violazioni della privacy. I nostri risultati rivelano vulnerabilità di sicurezza significative sia nei LVLM closed-source che open-source, come GPT-4V e LLaVA, evidenziando l'inadeguatezza dei modelli attuali nell'interpretare e rispondere in modo affidabile a scenari complessi e reali.
English
As Artificial General Intelligence (AGI) becomes increasingly integrated into
various facets of human life, ensuring the safety and ethical alignment of such
systems is paramount. Previous studies primarily focus on single-modality
threats, which may not suffice given the integrated and complex nature of
cross-modality interactions. We introduce a novel safety alignment challenge
called Safe Inputs but Unsafe Output (SIUO) to evaluate cross-modality safety
alignment. Specifically, it considers cases where single modalities are safe
independently but could potentially lead to unsafe or unethical outputs when
combined. To empirically investigate this problem, we developed the SIUO, a
cross-modality benchmark encompassing 9 critical safety domains, such as
self-harm, illegal activities, and privacy violations. Our findings reveal
substantial safety vulnerabilities in both closed- and open-source LVLMs, such
as GPT-4V and LLaVA, underscoring the inadequacy of current models to reliably
interpret and respond to complex, real-world scenarios.