Помогают ли токены мышления в обеспечении безопасности?

Аннотация

Современные модели рассуждения используют токены обдумывания для достижения более высоких результатов на бенчмарках по сравнению с их инструктивно настроенными аналогами. Также широко распространено мнение, что этот более «обдуманный» режим должен улучшать согласованность и безопасность, предоставляя модели безопасное пространство для рассмотрения того, нарушает ли её планируемый ответ на запрос принципы безопасности. Мы представляем доказательства того, что эта интуиция не всегда верна. На примере передовых моделей рассуждения с открытыми весами из семейств GPT-OSS, Qwen, Olmo и Phi мы обнаруживаем, что исход отказ/согласие уже сильно предсказуем с помощью обученного классификатора на скрытом представлении первого токена (0.84-0.95 AUROC и ~88% сбалансированной точности для прогнозирования отказа/согласия) до какого-либо видимого обдумывания. Процесс обдумывания оказывается более похожим на префиксное завершение, чем на обдуманный пересмотр, причем конечный результат редко меняется после первых ~20% обдумывания, несмотря на видимость обдуманности на текстовом уровне (~74% текстовых обдумываний происходят, когда распределение ответов уже зафиксировано на одной стороне отказа/согласия). Мы также обнаруживаем, что существующие интервенции безопасности на этапе инференса и обучения, несмотря на мотивацию, направленную на стимулирование обдумывания, в основном смещают поведение модели в сторону чрезмерного отказа, подавляя и без того редкие сигналы обдумывания. Наши результаты показывают, что безопасное поведение в современных моделях рассуждения гораздо менее обдуманное, чем принято считать, и подчеркивают необходимость методов, которые индуцируют реальное обдумывание безопасности.

English

Today's reasoning models use thinking tokens to attain stronger performance on benchmarks than their instruction-tuned counterparts. It is also generally believed that this more "deliberative" mode should improve alignment and safety, by providing the model a safe space to consider whether its planned answer to a request violates its safety principles. We present evidence that this intuition is not always correct. Across frontier open-weight reasoning models spanning GPT-OSS, Qwen, Olmo, and Phi families, we find that the eventual refusal/compliance outcome is already strongly predictable via a trained head on the first token's hidden representation (0.84-0.95 AUROC and sim88% balanced accuracy for predicting refusal/compliance) before any visible thinking. The thinking process turns out to be more akin to prefix completion than to deliberative revision, with the final outcome rarely changing after the first sim20% of thinking, despite giving the appearance of deliberation at the text level (sim74% of text-level deliberations occur when the response distribution is already locked to one refusal/compliance side). We also find that existing inference-time and training-based safety interventions, despite being motivated by the goal of inducing deliberation, largely shift model behavior toward over-refusal while suppressing already-scarce deliberation signals. Our results suggest that safety behavior in current reasoning models is much less deliberative than commonly assumed, and highlight the need for methods that induce real safety deliberation.