ChatPaper.aiChatPaper

SafeGRPO: Allineamento di Sicurezza Multimodale Auto-Ricompensato tramite Ottimizzazione delle Politiche Guidata da Regole

SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization

November 17, 2025
Autori: Xuankun Rong, Wenke Huang, Tingfeng Wang, Daiguo Zhou, Bo Du, Mang Ye
cs.AI

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno dimostrato impressionanti capacità di ragionamento e di seguire istruzioni, tuttavia il loro spazio modale ampliato introduce nuovi rischi per la sicurezza composizionale che emergono da complesse interazioni testo-immagine. Tali accoppiamenti cross-modali possono produrre semantiche non sicure anche quando i singoli input sono benigni, rivelando la fragile consapevolezza della sicurezza degli MLLM attuali. Mentre lavori recenti migliorano la sicurezza guidando i modelli a ragionare sui rischi potenziali, tracce di ragionamento non regolamentate possono compromettere l'allineamento; sebbene l'ottimizzazione della politica relativa al gruppo (GRPO) offra un perfezionamento auto-remunerato senza supervisione umana, manca di segnali verificabili per la sicurezza del ragionamento. Per affrontare ciò, proponiamo SafeGRPO, un framework di allineamento della sicurezza multimodale auto-remunerato che integra una costruzione della ricompensa governata da regole nel GRPO, abilitando un'ottimizzazione interpretabile e verificabile della sicurezza del ragionamento. Basato sul dataset costruito SafeTag-VL-3K con etichette di sicurezza esplicite visive, testuali e combinate, SafeGRPO esegue un pensiero di sicurezza guidato a step per imporre un ragionamento strutturato e un allineamento comportamentale, migliorando sostanzialmente la consapevolezza della sicurezza multimodale, la robustezza composizionale e la stabilità del ragionamento attraverso diversi benchmark senza sacrificare le capacità generali.
English
Multimodal large language models (MLLMs) have demonstrated impressive reasoning and instruction-following capabilities, yet their expanded modality space introduces new compositional safety risks that emerge from complex text-image interactions. Such cross-modal couplings can produce unsafe semantics even when individual inputs are benign, exposing the fragile safety awareness of current MLLMs. While recent works enhance safety by guiding models to reason about potential risks, unregulated reasoning traces may compromise alignment; although Group Relative Policy Optimization (GRPO) offers self-rewarded refinement without human supervision, it lacks verifiable signals for reasoning safety. To address this, we propose SafeGRPO a self-rewarded multimodal safety alignment framework that integrates rule-governed reward construction into GRPO, enabling interpretable and verifiable optimization of reasoning safety. Built upon the constructed SafeTag-VL-3K dataset with explicit visual, textual, and combined safety tags, SafeGRPO performs step-guided safety thinking to enforce structured reasoning and behavior alignment, substantially improving multimodal safety awareness, compositional robustness, and reasoning stability across diverse benchmarks without sacrificing general capabilities.
PDF32December 1, 2025