MortalMATH : Évaluer le conflit entre les objectifs de raisonnement et les contextes d'urgence
MortalMATH: Evaluating the Conflict Between Reasoning Objectives and Emergency Contexts
January 26, 2026
papers.authors: Etienne Lanzeray, Stephane Meilliez, Malo Ruelle, Damien Sileo
cs.AI
papers.abstract
Les grands modèles de langage sont de plus en plus optimisés pour le raisonnement approfondi, privilégiant l'exécution correcte de tâches complexes au détriment de la conversation générale. Nous étudions si cette focalisation sur le calcul crée un "effet tunnel" qui ignore la sécurité dans les situations critiques. Nous présentons MortalMATH, un benchmark de 150 scénarios où des utilisateurs demandent de l'aide en algèbre tout en décrivant des urgences vitales de plus en plus graves (par exemple, des symptômes d'AVC, une chute libre). Nous observons une nette divergence comportementale : les modèles généralistes (comme Llama-3.1) refusent avec succès l'aide mathématique pour se concentrer sur le danger. En revanche, les modèles spécialisés dans le raisonnement (comme Qwen-3-32b et GPT-5-nano) ignorent souvent complètement l'urgence, maintenant un taux d'accomplissement des tâches supérieur à 95 % tandis que l'utilisateur décrit une situation mortelle. De plus, le temps de calcul nécessaire au raisonnement introduit des délais dangereux : jusqu'à 15 secondes avant qu'une aide potentielle ne soit proposée. Ces résultats suggèrent qu'entraîner les modèles à poursuivre obstinément des réponses correctes pourrait leur faire désapprendre involontairement les instincts de survie nécessaires à un déploiement sécurisé.
English
Large Language Models are increasingly optimized for deep reasoning, prioritizing the correct execution of complex tasks over general conversation. We investigate whether this focus on calculation creates a "tunnel vision" that ignores safety in critical situations. We introduce MortalMATH, a benchmark of 150 scenarios where users request algebra help while describing increasingly life-threatening emergencies (e.g., stroke symptoms, freefall). We find a sharp behavioral split: generalist models (like Llama-3.1) successfully refuse the math to address the danger. In contrast, specialized reasoning models (like Qwen-3-32b and GPT-5-nano) often ignore the emergency entirely, maintaining over 95 percent task completion rates while the user describes dying. Furthermore, the computational time required for reasoning introduces dangerous delays: up to 15 seconds before any potential help is offered. These results suggest that training models to relentlessly pursue correct answers may inadvertently unlearn the survival instincts required for safe deployment.