Alignement de sécurité intermodalités

papers.abstract

Alors que l'Intelligence Générale Artificielle (AGI) s'intègre de plus en plus dans divers aspects de la vie humaine, garantir la sécurité et l'alignement éthique de ces systèmes est primordial. Les études précédentes se concentrent principalement sur les menaces unimodales, ce qui pourrait ne pas suffire compte tenu de la nature intégrée et complexe des interactions intermodales. Nous introduisons un nouveau défi d'alignement de sécurité appelé Entrées Sûres mais Sorties Dangereuses (SIUO) pour évaluer l'alignement de sécurité intermodale. Plus précisément, il examine les cas où les modalités individuelles sont sûres indépendamment, mais pourraient potentiellement conduire à des sorties dangereuses ou contraires à l'éthique lorsqu'elles sont combinées. Pour étudier empiriquement ce problème, nous avons développé le SIUO, un benchmark intermodal couvrant 9 domaines critiques de sécurité, tels que l'automutilation, les activités illégales et les violations de la vie privée. Nos résultats révèlent des vulnérabilités de sécurité importantes dans les modèles de langage et de vision à la fois propriétaires et open source, tels que GPT-4V et LLaVA, soulignant l'incapacité des modèles actuels à interpréter et répondre de manière fiable à des scénarios complexes du monde réel.

English

As Artificial General Intelligence (AGI) becomes increasingly integrated into various facets of human life, ensuring the safety and ethical alignment of such systems is paramount. Previous studies primarily focus on single-modality threats, which may not suffice given the integrated and complex nature of cross-modality interactions. We introduce a novel safety alignment challenge called Safe Inputs but Unsafe Output (SIUO) to evaluate cross-modality safety alignment. Specifically, it considers cases where single modalities are safe independently but could potentially lead to unsafe or unethical outputs when combined. To empirically investigate this problem, we developed the SIUO, a cross-modality benchmark encompassing 9 critical safety domains, such as self-harm, illegal activities, and privacy violations. Our findings reveal substantial safety vulnerabilities in both closed- and open-source LVLMs, such as GPT-4V and LLaVA, underscoring the inadequacy of current models to reliably interpret and respond to complex, real-world scenarios.

Alignement de sécurité intermodalités

Cross-Modality Safety Alignment

papers.abstract

Support