Cross-Modaliteit Veiligheidsuitlijning
Cross-Modality Safety Alignment
June 21, 2024
Auteurs: Siyin Wang, Xingsong Ye, Qinyuan Cheng, Junwen Duan, Shimin Li, Jinlan Fu, Xipeng Qiu, Xuanjing Huang
cs.AI
Samenvatting
Naarmate Artificial General Intelligence (AGI) steeds meer geïntegreerd raakt in verschillende aspecten van het menselijk leven, is het waarborgen van de veiligheid en ethische afstemming van dergelijke systemen van cruciaal belang. Eerdere studies richten zich voornamelijk op bedreigingen binnen één modaliteit, wat mogelijk niet voldoende is gezien de geïntegreerde en complexe aard van interacties tussen verschillende modaliteiten. Wij introduceren een nieuwe uitdaging op het gebied van veiligheidsafstemming, genaamd Safe Inputs but Unsafe Output (SIUO), om de veiligheidsafstemming tussen modaliteiten te evalueren. Specifiek gaat het hierbij om gevallen waarin afzonderlijke modaliteiten veilig zijn, maar mogelijk tot onveilige of onethische uitkomsten kunnen leiden wanneer ze worden gecombineerd. Om dit probleem empirisch te onderzoeken, hebben we de SIUO ontwikkeld, een benchmark voor cross-modale interacties die 9 kritieke veiligheidsdomeinen omvat, zoals zelfbeschadiging, illegale activiteiten en privacyschendingen. Onze bevindingen onthullen aanzienlijke veiligheidskwetsbaarheden in zowel gesloten als open-source LVLM's, zoals GPT-4V en LLaVA, wat de ontoereikendheid van huidige modellen onderstreept om betrouwbaar te interpreteren en te reageren op complexe, real-world scenario's.
English
As Artificial General Intelligence (AGI) becomes increasingly integrated into
various facets of human life, ensuring the safety and ethical alignment of such
systems is paramount. Previous studies primarily focus on single-modality
threats, which may not suffice given the integrated and complex nature of
cross-modality interactions. We introduce a novel safety alignment challenge
called Safe Inputs but Unsafe Output (SIUO) to evaluate cross-modality safety
alignment. Specifically, it considers cases where single modalities are safe
independently but could potentially lead to unsafe or unethical outputs when
combined. To empirically investigate this problem, we developed the SIUO, a
cross-modality benchmark encompassing 9 critical safety domains, such as
self-harm, illegal activities, and privacy violations. Our findings reveal
substantial safety vulnerabilities in both closed- and open-source LVLMs, such
as GPT-4V and LLaVA, underscoring the inadequacy of current models to reliably
interpret and respond to complex, real-world scenarios.