Alignement de sécurité intermodalités
Cross-Modality Safety Alignment
June 21, 2024
Auteurs: Siyin Wang, Xingsong Ye, Qinyuan Cheng, Junwen Duan, Shimin Li, Jinlan Fu, Xipeng Qiu, Xuanjing Huang
cs.AI
Résumé
Alors que l'Intelligence Générale Artificielle (AGI) s'intègre de plus en plus dans divers aspects de la vie humaine, garantir la sécurité et l'alignement éthique de ces systèmes est primordial. Les études précédentes se concentrent principalement sur les menaces unimodales, ce qui pourrait ne pas suffire compte tenu de la nature intégrée et complexe des interactions intermodales. Nous introduisons un nouveau défi d'alignement de sécurité appelé Entrées Sûres mais Sorties Dangereuses (SIUO) pour évaluer l'alignement de sécurité intermodale. Plus précisément, il examine les cas où les modalités individuelles sont sûres indépendamment, mais pourraient potentiellement conduire à des sorties dangereuses ou contraires à l'éthique lorsqu'elles sont combinées. Pour étudier empiriquement ce problème, nous avons développé le SIUO, un benchmark intermodal couvrant 9 domaines critiques de sécurité, tels que l'automutilation, les activités illégales et les violations de la vie privée. Nos résultats révèlent des vulnérabilités de sécurité importantes dans les modèles de langage et de vision à la fois propriétaires et open source, tels que GPT-4V et LLaVA, soulignant l'incapacité des modèles actuels à interpréter et répondre de manière fiable à des scénarios complexes du monde réel.
English
As Artificial General Intelligence (AGI) becomes increasingly integrated into
various facets of human life, ensuring the safety and ethical alignment of such
systems is paramount. Previous studies primarily focus on single-modality
threats, which may not suffice given the integrated and complex nature of
cross-modality interactions. We introduce a novel safety alignment challenge
called Safe Inputs but Unsafe Output (SIUO) to evaluate cross-modality safety
alignment. Specifically, it considers cases where single modalities are safe
independently but could potentially lead to unsafe or unethical outputs when
combined. To empirically investigate this problem, we developed the SIUO, a
cross-modality benchmark encompassing 9 critical safety domains, such as
self-harm, illegal activities, and privacy violations. Our findings reveal
substantial safety vulnerabilities in both closed- and open-source LVLMs, such
as GPT-4V and LLaVA, underscoring the inadequacy of current models to reliably
interpret and respond to complex, real-world scenarios.Summary
AI-Generated Summary