THINKSAFE:推論モデルのための自己生成型安全性アライメント
THINKSAFE: Self-Generated Safety Alignment for Reasoning Models
January 30, 2026
著者: Seanie Lee, Sangwoo Park, Yumin Choi, Gyeongman Kim, Minki Kang, Jihun Yun, Dongmin Park, Jongho Park, Sung Ju Hwang
cs.AI
要旨
大規模推論モデル(LRM)は、推論タスクに対して強化学習(RL)を適用し、長い連鎖思考(CoT)による推論を生成することで顕著な性能を達成しています。しかし、この過剰な最適化は従順性を優先する傾向があり、モデルを有害なプロンプトに対して脆弱にしています。この安全性の低下を緩和するため、最近のアプローチでは外部の教師モデルによる蒸頼を利用していますが、これには分布の不一致が生じ、本来の推論能力を低下させる問題があります。私たちはThinkSafeを提案します。これは外部の教師を必要とせず、自己生成によるアライメントを実現するフレームワークです。私たちの重要な洞察は、従順性が安全性メカニズムを抑制する一方で、モデルは有害性を識別する潜在的な知識を保持していることが多いという点です。ThinkSafeは軽量な拒否ステアリングによりこの知識を解放し、モデルが分布内の安全性推論トレースを生成するよう導きます。これらの自己生成された応答によるファインチューニングは、分布シフトを最小限に抑えつつ、モデルの効果的な再調整を実現します。DeepSeek-R1-DistillおよびQwen3を用いた実験により、ThinkSafeが推論能力を維持しつつ安全性を大幅に向上させることを示しました。特に、GRPOと比較して優れた安全性と同等の推論性能を達成し、計算コストを大幅に削減しています。コード、モデル、データセットはhttps://github.com/seanie12/ThinkSafe.git で公開されています。
English
Large reasoning models (LRMs) achieve remarkable performance by leveraging reinforcement learning (RL) on reasoning tasks to generate long chain-of-thought (CoT) reasoning. However, this over-optimization often prioritizes compliance, making models vulnerable to harmful prompts. To mitigate this safety degradation, recent approaches rely on external teacher distillation, yet this introduces a distributional discrepancy that degrades native reasoning. We propose ThinkSafe, a self-generated alignment framework that restores safety alignment without external teachers. Our key insight is that while compliance suppresses safety mechanisms, models often retain latent knowledge to identify harm. ThinkSafe unlocks this via lightweight refusal steering, guiding the model to generate in-distribution safety reasoning traces. Fine-tuning on these self-generated responses effectively realigns the model while minimizing distribution shift. Experiments on DeepSeek-R1-Distill and Qwen3 show ThinkSafe significantly improves safety while preserving reasoning proficiency. Notably, it achieves superior safety and comparable reasoning to GRPO, with significantly reduced computational cost. Code, models, and datasets are available at https://github.com/seanie12/ThinkSafe.git.