SafeGRPO: Самостоятельная мультимодальная безопасностная адаптация через оптимизацию политики на основе правил
SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization
November 17, 2025
Авторы: Xuankun Rong, Wenke Huang, Tingfeng Wang, Daiguo Zhou, Bo Du, Mang Ye
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) продемонстрировали впечатляющие способности к рассуждению и следованию инструкциям, однако их расширенное модальное пространство создает новые композиционные риски безопасности, возникающие из-за сложного взаимодействия текста и изображений. Такие кросс-модальные связи могут порождать небезопасную семантику даже при доброкачественных индивидуальных входах, обнажая хрупкую осведомленность о безопасности у современных MLLM. Хотя последние работы повышают безопасность, направляя модели на анализ потенциальных рисков, нерегулируемые траектории рассуждений могут нарушить согласованность; несмотря на то, что Group Relative Policy Optimization (GRPO) обеспечивает само-вознаграждаемое уточнение без участия человека, ей не хватает верифицируемых сигналов для безопасности рассуждений. Для решения этой проблемы мы предлагаем SafeGRPO — само-вознаграждаемую мультимодальную структуру согласования по безопасности, которая интегрирует управляемое правилами построение вознаграждения в GRPO, обеспечивая интерпретируемую и проверяемую оптимизацию безопасности рассуждений. Построенная на основе созданного набора данных SafeTag-VL-3K с явными визуальными, текстовыми и комбинированными тегами безопасности, SafeGRPO выполняет пошаговое направляемое безопасное мышление для обеспечения структурированного рассуждения и согласования поведения, существенно улучшая мультимодальную осведомленность о безопасности, композиционную устойчивость и стабильность рассуждений в различных тестах без ущерба для общих возможностей.
English
Multimodal large language models (MLLMs) have demonstrated impressive reasoning and instruction-following capabilities, yet their expanded modality space introduces new compositional safety risks that emerge from complex text-image interactions. Such cross-modal couplings can produce unsafe semantics even when individual inputs are benign, exposing the fragile safety awareness of current MLLMs. While recent works enhance safety by guiding models to reason about potential risks, unregulated reasoning traces may compromise alignment; although Group Relative Policy Optimization (GRPO) offers self-rewarded refinement without human supervision, it lacks verifiable signals for reasoning safety. To address this, we propose SafeGRPO a self-rewarded multimodal safety alignment framework that integrates rule-governed reward construction into GRPO, enabling interpretable and verifiable optimization of reasoning safety. Built upon the constructed SafeTag-VL-3K dataset with explicit visual, textual, and combined safety tags, SafeGRPO performs step-guided safety thinking to enforce structured reasoning and behavior alignment, substantially improving multimodal safety awareness, compositional robustness, and reasoning stability across diverse benchmarks without sacrificing general capabilities.