THINKSAFE: Alinhamento de Segurança Auto-Gerado para Modelos de Raciocínio

Resumo

Os grandes modelos de raciocínio (LRMs) alcançam desempenho notável ao utilizar aprendizagem por reforço (RL) em tarefas de raciocínio para gerar longas cadeias de pensamento (CoT). No entanto, esta sobre-otimização frequentemente prioriza a complacência, tornando os modelos vulneráveis a *prompts* maliciosos. Para mitigar esta degradação de segurança, abordagens recentes dependem de destilação por um professor externo, o que introduz uma discrepância distribucional que degrada o raciocínio nativo. Propomos o ThinkSafe, um quadro de alinhamento auto-gerado que restaura o alinhamento de segurança sem professores externos. A nossa perceção fundamental é que, embora a complacência suprima os mecanismos de segurança, os modelos frequentemente retêm conhecimento latente para identificar danos. O ThinkSafe liberta este conhecimento através de uma orientação leve de recusa, guiando o modelo para gerar vestígios de raciocínio de segurança dentro da distribuição. O *fine-tuning* nestas respostas auto-geradas realinha o modelo eficazmente, minimizando a mudança distribucional. Experiências no DeepSeek-R1-Distill e Qwen3 mostram que o ThinkSafe melhora significativamente a segurança, preservando a proficiência de raciocínio. Notavelmente, alcança segurança superior e raciocínio comparável ao GRPO, com um custo computacional significativamente reduzido. Código, modelos e conjuntos de dados estão disponíveis em https://github.com/seanie12/ThinkSafe.git.

English

Large reasoning models (LRMs) achieve remarkable performance by leveraging reinforcement learning (RL) on reasoning tasks to generate long chain-of-thought (CoT) reasoning. However, this over-optimization often prioritizes compliance, making models vulnerable to harmful prompts. To mitigate this safety degradation, recent approaches rely on external teacher distillation, yet this introduces a distributional discrepancy that degrades native reasoning. We propose ThinkSafe, a self-generated alignment framework that restores safety alignment without external teachers. Our key insight is that while compliance suppresses safety mechanisms, models often retain latent knowledge to identify harm. ThinkSafe unlocks this via lightweight refusal steering, guiding the model to generate in-distribution safety reasoning traces. Fine-tuning on these self-generated responses effectively realigns the model while minimizing distribution shift. Experiments on DeepSeek-R1-Distill and Qwen3 show ThinkSafe significantly improves safety while preserving reasoning proficiency. Notably, it achieves superior safety and comparable reasoning to GRPO, with significantly reduced computational cost. Code, models, and datasets are available at https://github.com/seanie12/ThinkSafe.git.

THINKSAFE: Alinhamento de Segurança Auto-Gerado para Modelos de Raciocínio

THINKSAFE: Self-Generated Safety Alignment for Reasoning Models

Resumo

Support