ChatPaper.aiChatPaper

**THINKSAFE: 추론 모델을 위한 자체 생성 안전성 정렬**

THINKSAFE: Self-Generated Safety Alignment for Reasoning Models

January 30, 2026
저자: Seanie Lee, Sangwoo Park, Yumin Choi, Gyeongman Kim, Minki Kang, Jihun Yun, Dongmin Park, Jongho Park, Sung Ju Hwang
cs.AI

초록

대규모 추론 모델(LRMs)은 추론 과제에 강화 학습(RL)을 적용하여 긴 사고 연쇄(CoT) 추론을 생성함으로써 뛰어난 성능을 달성합니다. 그러나 이러한 과도한 최적화는 종종 순응성을 우선시하여 모델이 유해한 프롬프트에 취약해지게 만듭니다. 이러한 안전성 저하를 완화하기 위해 최근 접근법들은 외부 교사 지식을 활용하지만, 이는 원래 추론 능력을 저하시키는 분포 차이를 초래합니다. 우리는 외부 교사 없이 안전성 조정을 복원하는 자체 생성 조정 프레임워크인 ThinkSafe를 제안합니다. 우리의 핵심 통찰은 순응성이 안전 메커니즘을 억제하더라도 모델이 유해성을 식별하는 잠재 지식을 종종 보유한다는 점입니다. ThinkSafe는 경량의 거부 스티어링을 통해 이를 활성화하여 모델이 분포 내 안전 추론 흔적을 생성하도록 유도합니다. 이러한 자체 생성 응답에 대한 미세 조정은 분포 변화를 최소화하면서 모델을 효과적으로 재조정합니다. DeepSeek-R1-Distill 및 Qwen3에 대한 실험에서 ThinkSafe는 추론 능력을 보존하면서 안전성을 크게 향상시킴을 보여줍니다. 특히, GRPO 대비 월등한 안전성과 비슷한 수준의 추론 성능을 달성하면서 계산 비용을 크게 절감합니다. 코드, 모델 및 데이터셋은 https://github.com/seanie12/ThinkSafe.git에서 이용 가능합니다.
English
Large reasoning models (LRMs) achieve remarkable performance by leveraging reinforcement learning (RL) on reasoning tasks to generate long chain-of-thought (CoT) reasoning. However, this over-optimization often prioritizes compliance, making models vulnerable to harmful prompts. To mitigate this safety degradation, recent approaches rely on external teacher distillation, yet this introduces a distributional discrepancy that degrades native reasoning. We propose ThinkSafe, a self-generated alignment framework that restores safety alignment without external teachers. Our key insight is that while compliance suppresses safety mechanisms, models often retain latent knowledge to identify harm. ThinkSafe unlocks this via lightweight refusal steering, guiding the model to generate in-distribution safety reasoning traces. Fine-tuning on these self-generated responses effectively realigns the model while minimizing distribution shift. Experiments on DeepSeek-R1-Distill and Qwen3 show ThinkSafe significantly improves safety while preserving reasoning proficiency. Notably, it achieves superior safety and comparable reasoning to GRPO, with significantly reduced computational cost. Code, models, and datasets are available at https://github.com/seanie12/ThinkSafe.git.
PDF373February 3, 2026