Автоматизация управления для обеспечения безопасности мультимодальных больших языковых моделей
Automating Steering for Safe Multimodal Large Language Models
July 17, 2025
Авторы: Lyucheng Wu, Mengru Wang, Ziwen Xu, Tri Cao, Nay Oo, Bryan Hooi, Shumin Deng
cs.AI
Аннотация
Недавние достижения в области мультимодальных больших языковых моделей (MLLMs) открыли мощные возможности для кросс-модального рассуждения, но также вызвали новые проблемы безопасности, особенно при столкновении с враждебными мультимодальными входными данными. Для повышения безопасности MLLM во время вывода мы представляем модульную и адаптивную технологию вмешательства на этапе вывода, AutoSteer, не требующую тонкой настройки базовой модели. AutoSteer включает три ключевых компонента: (1) новый показатель осведомленности о безопасности (Safety Awareness Score, SAS), который автоматически идентифицирует наиболее значимые для безопасности различия между внутренними слоями модели; (2) адаптивный зонд безопасности, обученный оценивать вероятность токсичных выходных данных на основе промежуточных представлений; и (3) легковесный модуль Refusal Head, который избирательно вмешивается для регулирования генерации при обнаружении рисков безопасности. Эксперименты на моделях LLaVA-OV и Chameleon на различных критически важных для безопасности тестах демонстрируют, что AutoSteer значительно снижает уровень успешности атак (Attack Success Rate, ASR) для текстовых, визуальных и кросс-модальных угроз, сохраняя при этом общие способности модели. Эти результаты позиционируют AutoSteer как практичный, интерпретируемый и эффективный фреймворк для более безопасного развертывания мультимодальных систем искусственного интеллекта.
English
Recent progress in Multimodal Large Language Models (MLLMs) has unlocked
powerful cross-modal reasoning abilities, but also raised new safety concerns,
particularly when faced with adversarial multimodal inputs. To improve the
safety of MLLMs during inference, we introduce a modular and adaptive
inference-time intervention technology, AutoSteer, without requiring any
fine-tuning of the underlying model. AutoSteer incorporates three core
components: (1) a novel Safety Awareness Score (SAS) that automatically
identifies the most safety-relevant distinctions among the model's internal
layers; (2) an adaptive safety prober trained to estimate the likelihood of
toxic outputs from intermediate representations; and (3) a lightweight Refusal
Head that selectively intervenes to modulate generation when safety risks are
detected. Experiments on LLaVA-OV and Chameleon across diverse safety-critical
benchmarks demonstrate that AutoSteer significantly reduces the Attack Success
Rate (ASR) for textual, visual, and cross-modal threats, while maintaining
general abilities. These findings position AutoSteer as a practical,
interpretable, and effective framework for safer deployment of multimodal AI
systems.