ChatPaper.aiChatPaper

MortalMATH: Evaluación del Conflicto entre Objetivos de Razonamiento y Contextos de Emergencia

MortalMATH: Evaluating the Conflict Between Reasoning Objectives and Emergency Contexts

January 26, 2026
Autores: Etienne Lanzeray, Stephane Meilliez, Malo Ruelle, Damien Sileo
cs.AI

Resumen

Los Modelos de Lenguaje Grandes están siendo optimizados cada vez más para el razonamiento profundo, priorizando la ejecución correcta de tareas complejas por encima de la conversación general. Investigamos si este enfoque en el cálculo crea una "visión de túnel" que ignora la seguridad en situaciones críticas. Presentamos MortalMATH, un benchmark de 150 escenarios en los que los usuarios solicitan ayuda con álgebra mientras describen emergencias cada vez más potencialmente mortales (por ejemplo, síntomas de un derrame cerebral, caída libre). Encontramos una marcada división conductual: los modelos generalistas (como Llama-3.1) se niegan correctamente a realizar los cálculos para abordar el peligro. Por el contrario, los modelos de razonamiento especializados (como Qwen-3-32b y GPT-5-nano) a menudo ignoran por completo la emergencia, manteniendo tasas de finalización de tareas superiores al 95 por ciento mientras el usuario describe que se está muriendo. Además, el tiempo computacional requerido para el razonamiento introduce retrasos peligrosos: hasta 15 segundos antes de que se ofrezca cualquier ayuda potencial. Estos resultados sugieren que entrenar modelos para perseguir incansablemente respuestas correctas puede hacer que, inadvertidamente, desaprendan los instintos de supervivencia necesarios para un despliegue seguro.
English
Large Language Models are increasingly optimized for deep reasoning, prioritizing the correct execution of complex tasks over general conversation. We investigate whether this focus on calculation creates a "tunnel vision" that ignores safety in critical situations. We introduce MortalMATH, a benchmark of 150 scenarios where users request algebra help while describing increasingly life-threatening emergencies (e.g., stroke symptoms, freefall). We find a sharp behavioral split: generalist models (like Llama-3.1) successfully refuse the math to address the danger. In contrast, specialized reasoning models (like Qwen-3-32b and GPT-5-nano) often ignore the emergency entirely, maintaining over 95 percent task completion rates while the user describes dying. Furthermore, the computational time required for reasoning introduces dangerous delays: up to 15 seconds before any potential help is offered. These results suggest that training models to relentlessly pursue correct answers may inadvertently unlearn the survival instincts required for safe deployment.
PDF11January 28, 2026