Мультимодальная ситуационная безопасность
Multimodal Situational Safety
October 8, 2024
Авторы: Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Anderson Compalas, Dawn Song, Xin Eric Wang
cs.AI
Аннотация
Многомодельные крупные языковые модели (MLLM) стремительно развиваются, проявляя впечатляющие возможности в качестве многомодальных ассистентов, взаимодействующих как с людьми, так и с окружающей средой. Однако это увеличение сложности вносит значительные проблемы безопасности. В данной статье мы представляем первую оценку и анализ новой проблемы безопасности, названной Многомодальная Ситуационная Безопасность, которая исследует, как безопасность меняется в зависимости от конкретной ситуации, в которой находится пользователь или агент. Мы утверждаем, что для безопасного ответа MLLM, будь то через язык или действие, часто необходимо оценить безопасность языкового запроса в соответствующем визуальном контексте. Для оценки этой способности мы разрабатываем бенчмарк Многомодальной Ситуационной Безопасности (MSSBench) для оценки производительности ситуационной безопасности текущих MLLM. Набор данных включает 1 820 пар запрос-изображение, половина из которых имеет безопасный контекст изображения, а другая половина - небезопасный. Мы также разрабатываем фреймворк оценки, который анализирует ключевые аспекты безопасности, включая явное обоснование безопасности, визуальное понимание и, что критично, ситуационное обоснование безопасности. Наши результаты показывают, что текущие MLLM испытывают затруднения с этой тонкой проблемой безопасности в среде выполнения инструкций и не могут справиться с этими ситуационными вызовами безопасности сразу, выделяя ключевую область для будущих исследований. Более того, мы разрабатываем многозвенные конвейеры агентов для совместного решения проблем безопасности, что показывает последовательное улучшение безопасности по сравнению с исходным ответом MLLM. Код и данные: mssbench.github.io.
English
Multimodal Large Language Models (MLLMs) are rapidly evolving, demonstrating
impressive capabilities as multimodal assistants that interact with both humans
and their environments. However, this increased sophistication introduces
significant safety concerns. In this paper, we present the first evaluation and
analysis of a novel safety challenge termed Multimodal Situational Safety,
which explores how safety considerations vary based on the specific situation
in which the user or agent is engaged. We argue that for an MLLM to respond
safely, whether through language or action, it often needs to assess the safety
implications of a language query within its corresponding visual context. To
evaluate this capability, we develop the Multimodal Situational Safety
benchmark (MSSBench) to assess the situational safety performance of current
MLLMs. The dataset comprises 1,820 language query-image pairs, half of which
the image context is safe, and the other half is unsafe. We also develop an
evaluation framework that analyzes key safety aspects, including explicit
safety reasoning, visual understanding, and, crucially, situational safety
reasoning. Our findings reveal that current MLLMs struggle with this nuanced
safety problem in the instruction-following setting and struggle to tackle
these situational safety challenges all at once, highlighting a key area for
future research. Furthermore, we develop multi-agent pipelines to coordinately
solve safety challenges, which shows consistent improvement in safety over the
original MLLM response. Code and data: mssbench.github.io.Summary
AI-Generated Summary