THINKSAFE: Allineamento alla Sicurezza Auto-Generato per Modelli di Ragionamento

Abstract

I grandi modelli di ragionamento (LRM) ottengono prestazioni notevoli sfruttando l'apprendimento per rinforzo (RL) su compiti di ragionamento per generare lunghe catene di ragionamento (CoT). Tuttavia, questa sovra-ottimizzazione spesso privilegia la compiacenza, rendendo i modelli vulnerabili a prompt dannosi. Per mitigare questo degrado della sicurezza, gli approcci recenti si basano sulla distillazione da insegnanti esterni, ma ciò introduce una discrepanza distributiva che degrada il ragionamento nativo. Proponiamo ThinkSafe, un framework di allineamento auto-generato che ripristina l'allineamento di sicurezza senza insegnanti esterni. La nostra intuizione chiave è che, sebbene la compiacenza sopprima i meccanismi di sicurezza, i modelli spesso conservano conoscenze latenti per identificare il danno. ThinkSafe sblocca questo tramite uno steering di rifiuto leggero, guidando il modello a generare tracce di ragionamento sulla sicurezza in-distribuzione. Il fine-tuning su queste risposte auto-generate riallinea efficacemente il modello minimizzando lo shift distributivo. Esperimenti su DeepSeek-R1-Distill e Qwen3 mostrano che ThinkSafe migliora significativamente la sicurezza preservando la competenza di ragionamento. In particolare, raggiunge una sicurezza superiore e un ragionamento comparabile a GRPO, con un costo computazionale significativamente ridotto. Codice, modelli e dataset sono disponibili su https://github.com/seanie12/ThinkSafe.git.

English

Large reasoning models (LRMs) achieve remarkable performance by leveraging reinforcement learning (RL) on reasoning tasks to generate long chain-of-thought (CoT) reasoning. However, this over-optimization often prioritizes compliance, making models vulnerable to harmful prompts. To mitigate this safety degradation, recent approaches rely on external teacher distillation, yet this introduces a distributional discrepancy that degrades native reasoning. We propose ThinkSafe, a self-generated alignment framework that restores safety alignment without external teachers. Our key insight is that while compliance suppresses safety mechanisms, models often retain latent knowledge to identify harm. ThinkSafe unlocks this via lightweight refusal steering, guiding the model to generate in-distribution safety reasoning traces. Fine-tuning on these self-generated responses effectively realigns the model while minimizing distribution shift. Experiments on DeepSeek-R1-Distill and Qwen3 show ThinkSafe significantly improves safety while preserving reasoning proficiency. Notably, it achieves superior safety and comparable reasoning to GRPO, with significantly reduced computational cost. Code, models, and datasets are available at https://github.com/seanie12/ThinkSafe.git.

THINKSAFE: Allineamento alla Sicurezza Auto-Generato per Modelli di Ragionamento

THINKSAFE: Self-Generated Safety Alignment for Reasoning Models

Abstract

Support