ChatPaper.aiChatPaper

MortalMATH: Оценка конфликта между целями логического вывода и контекстом чрезвычайных ситуаций

MortalMATH: Evaluating the Conflict Between Reasoning Objectives and Emergency Contexts

January 26, 2026
Авторы: Etienne Lanzeray, Stephane Meilliez, Malo Ruelle, Damien Sileo
cs.AI

Аннотация

Крупные языковые модели всё чаще оптимизируются для глубоких рассуждений, ставя во главу угла корректное выполнение сложных задач, а не общие беседы. Мы исследуем, создаёт ли эта ориентация на вычисления "тоннельное зрение", игнорирующее безопасность в критических ситуациях. Мы представляем MortalMATH — набор из 150 сценариев, в которых пользователи запрашивают помощь с алгеброй, одновременно описывая всё более угрожающие жизни чрезвычайные ситуации (например, симптомы инсульта, свободное падение). Мы обнаружили резкий поведенческий раскол: модели общего назначения (такие как Llama-3.1) успешно отказываются решать математическую задачу, чтобы отреагировать на опасность. В отличие от них, специализированные модели для рассуждений (такие как Qwen-3-32b и GPT-5-nano) часто полностью игнорируют чрезвычайную ситуацию, сохраняя уровень выполнения задачи свыше 95%, в то время как пользователь описывает приближение смерти. Более того, вычислительное время, необходимое для рассуждений, вносит опасные задержки: до 15 секунд до того, как может быть предложена какая-либо помощь. Эти результаты позволяют предположить, что обучение моделей неуклонно стремиться к правильным ответам может ненамеренно привести к утрате "инстинктов выживания", необходимых для безопасного применения.
English
Large Language Models are increasingly optimized for deep reasoning, prioritizing the correct execution of complex tasks over general conversation. We investigate whether this focus on calculation creates a "tunnel vision" that ignores safety in critical situations. We introduce MortalMATH, a benchmark of 150 scenarios where users request algebra help while describing increasingly life-threatening emergencies (e.g., stroke symptoms, freefall). We find a sharp behavioral split: generalist models (like Llama-3.1) successfully refuse the math to address the danger. In contrast, specialized reasoning models (like Qwen-3-32b and GPT-5-nano) often ignore the emergency entirely, maintaining over 95 percent task completion rates while the user describes dying. Furthermore, the computational time required for reasoning introduces dangerous delays: up to 15 seconds before any potential help is offered. These results suggest that training models to relentlessly pursue correct answers may inadvertently unlearn the survival instincts required for safe deployment.
PDF11January 28, 2026