ChatPaper.aiChatPaper

THINKSAFE: Alineación de Seguridad Autogenerada para Modelos de Razonamiento

THINKSAFE: Self-Generated Safety Alignment for Reasoning Models

January 30, 2026
Autores: Seanie Lee, Sangwoo Park, Yumin Choi, Gyeongman Kim, Minki Kang, Jihun Yun, Dongmin Park, Jongho Park, Sung Ju Hwang
cs.AI

Resumen

Los grandes modelos de razonamiento (LRM) logran un rendimiento notable al aprovechar el aprendizaje por refuerzo (RL) en tareas de razonamiento para generar largas cadenas de pensamiento (CoT). Sin embargo, esta sobreoptimización a menudo prioriza la complacencia, haciendo que los modelos sean vulnerables a instrucciones dañinas. Para mitigar esta degradación de seguridad, los enfoques recientes dependen de la destilación mediante un profesor externo, lo que introduce una discrepancia distribucional que degrada el razonamiento nativo. Proponemos ThinkSafe, un marco de alineación auto-generada que restaura la alineación de seguridad sin profesores externos. Nuestra idea clave es que, si bien la complacencia suprime los mecanismos de seguridad, los modelos a menudo conservan conocimiento latente para identificar daños. ThinkSafe libera esto mediante una guía de rechazo ligera, dirigiendo al modelo para generar trazas de razonamiento de seguridad dentro de la distribución. El ajuste fino sobre estas respuestas auto-generadas realinea eficazmente el modelo mientras minimiza el cambio distribucional. Experimentos en DeepSeek-R1-Distill y Qwen3 muestran que ThinkSafe mejora significativamente la seguridad mientras preserva la competencia en razonamiento. Notablemente, logra una seguridad superior y un razonamiento comparable a GRPO, con un coste computacional significativamente reducido. El código, modelos y conjuntos de datos están disponibles en https://github.com/seanie12/ThinkSafe.git.
English
Large reasoning models (LRMs) achieve remarkable performance by leveraging reinforcement learning (RL) on reasoning tasks to generate long chain-of-thought (CoT) reasoning. However, this over-optimization often prioritizes compliance, making models vulnerable to harmful prompts. To mitigate this safety degradation, recent approaches rely on external teacher distillation, yet this introduces a distributional discrepancy that degrades native reasoning. We propose ThinkSafe, a self-generated alignment framework that restores safety alignment without external teachers. Our key insight is that while compliance suppresses safety mechanisms, models often retain latent knowledge to identify harm. ThinkSafe unlocks this via lightweight refusal steering, guiding the model to generate in-distribution safety reasoning traces. Fine-tuning on these self-generated responses effectively realigns the model while minimizing distribution shift. Experiments on DeepSeek-R1-Distill and Qwen3 show ThinkSafe significantly improves safety while preserving reasoning proficiency. Notably, it achieves superior safety and comparable reasoning to GRPO, with significantly reduced computational cost. Code, models, and datasets are available at https://github.com/seanie12/ThinkSafe.git.
PDF373February 3, 2026