ChatPaper.aiChatPaper

SafeGRPO: Selbstbelohnte multimodale Sicherheitsabstimmung durch regelgesteuerte Politikoptimierung

SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization

November 17, 2025
papers.authors: Xuankun Rong, Wenke Huang, Tingfeng Wang, Daiguo Zhou, Bo Du, Mang Ye
cs.AI

papers.abstract

Multimodale große Sprachmodelle (MLLMs) haben beeindruckende Fähigkeiten im logischen Denken und Befolgen von Anweisungen demonstriert, doch ihr erweiterter Modalitätsraum führt zu neuen kompositionellen Sicherheitsrisiken, die aus komplexen Text-Bild-Interaktionen entstehen. Solche cross-modalen Kopplungen können unsichere Semantiken erzeugen, selbst wenn einzelne Eingaben harmlos sind, was das fragile Sicherheitsbewusstsein aktueller MLLMs offenlegt. Während neuere Arbeiten die Sicherheit verbessern, indem sie Modelle dazu anleiten, über potenzielle Risiken nachzudenken, können unregulierte Denktraces die Alignment-Eigenschaften beeinträchtigen; obwohl Group Relative Policy Optimization (GRPO) eine selbstbelohnte Verfeinerung ohne menschliche Aufsicht ermöglicht, fehlen ihm verifizierbare Signale für die Sicherheit des Schlussfolgerns. Um dies zu adressieren, schlagen wir SafeGRPO vor – einen selbstbelohnten multimodalen Sicherheits-Alignment-Rahmen, der regelgesteuerte Belohnungskonstruktion in GRPO integriert und eine interpretierbare und verifizierbare Optimierung der Sicherheit des Schlussfolgerns ermöglicht. Aufbauend auf dem konstruierten SafeTag-VL-3K-Datensatz mit expliziten visuellen, textuellen und kombinierten Sicherheits-Tags führt SafeGRPO schrittgesteuertes Sicherheitsdenken durch, um strukturiertes Reasoning und Verhaltensalignment durchzusetzen, und verbessert dadurch wesentlich das multimodale Sicherheitsbewusstsein, die kompositionelle Robustheit und die Stabilität des Schlussfolgerns über diverse Benchmarks hinweg, ohne allgemeine Fähigkeiten zu beeinträchtigen.
English
Multimodal large language models (MLLMs) have demonstrated impressive reasoning and instruction-following capabilities, yet their expanded modality space introduces new compositional safety risks that emerge from complex text-image interactions. Such cross-modal couplings can produce unsafe semantics even when individual inputs are benign, exposing the fragile safety awareness of current MLLMs. While recent works enhance safety by guiding models to reason about potential risks, unregulated reasoning traces may compromise alignment; although Group Relative Policy Optimization (GRPO) offers self-rewarded refinement without human supervision, it lacks verifiable signals for reasoning safety. To address this, we propose SafeGRPO a self-rewarded multimodal safety alignment framework that integrates rule-governed reward construction into GRPO, enabling interpretable and verifiable optimization of reasoning safety. Built upon the constructed SafeTag-VL-3K dataset with explicit visual, textual, and combined safety tags, SafeGRPO performs step-guided safety thinking to enforce structured reasoning and behavior alignment, substantially improving multimodal safety awareness, compositional robustness, and reasoning stability across diverse benchmarks without sacrificing general capabilities.
PDF32December 1, 2025