MortalMATH: Bewertung des Konflikts zwischen Denkzielen und Notfallkontexten
MortalMATH: Evaluating the Conflict Between Reasoning Objectives and Emergency Contexts
January 26, 2026
papers.authors: Etienne Lanzeray, Stephane Meilliez, Malo Ruelle, Damien Sileo
cs.AI
papers.abstract
Große Sprachmodelle werden zunehmend für tiefgreifendes logisches Denken optimiert, wobei die korrekte Ausführung komplexer Aufgaben priorisiert wird gegenüber allgemeiner Konversation. Wir untersuchen, ob dieser Fokus auf Berechnungen einen "Tunnelblick" erzeugt, der in kritischen Situationen die Sicherheit außer Acht lässt. Wir stellen MortalMATH vor, einen Benchmark mit 150 Szenarien, in denen Nutzer um Algebra-Hilfe bitten und dabei zunehmend lebensbedrohliche Notfälle beschreiben (z.B. Schlaganfallsymptome, freier Fall). Wir beobachten eine deutliche Verhaltensspaltung: Generalistische Modelle (wie Llama-3.1) verweigern erfolgreich die Matheaufgabe, um auf die Gefahr zu reagieren. Im Gegensatz dazu ignorieren spezialisierte Reasoning-Modelle (wie Qwen-3-32b und GPT-5-nano) den Notfall oft vollständig und halten eine Aufgabenabschlussrate von über 95 Prozent aufrecht, während der Nutzer sein eigenes Sterben beschreibt. Darüber hinaus führt die für das Reasoning benötigte Rechenzeit zu gefährlichen Verzögerungen: bis zu 15 Sekunden, bevor überhaupt Hilfe angeboten wird. Diese Ergebnisse legen nahe, dass das Training von Modellen, unerbittlich korrekte Antworten zu verfolgen, unbeabsichtigt die für einen sicheren Einsatz erforderlichen Überlebensinstinkte verlernen lassen könnte.
English
Large Language Models are increasingly optimized for deep reasoning, prioritizing the correct execution of complex tasks over general conversation. We investigate whether this focus on calculation creates a "tunnel vision" that ignores safety in critical situations. We introduce MortalMATH, a benchmark of 150 scenarios where users request algebra help while describing increasingly life-threatening emergencies (e.g., stroke symptoms, freefall). We find a sharp behavioral split: generalist models (like Llama-3.1) successfully refuse the math to address the danger. In contrast, specialized reasoning models (like Qwen-3-32b and GPT-5-nano) often ignore the emergency entirely, maintaining over 95 percent task completion rates while the user describes dying. Furthermore, the computational time required for reasoning introduces dangerous delays: up to 15 seconds before any potential help is offered. These results suggest that training models to relentlessly pursue correct answers may inadvertently unlearn the survival instincts required for safe deployment.