MortalMATH: Evaluatie van het Conflict tussen Redeneerdoelen en Noodsituaties

Samenvatting

Grote Taalmodellen worden in toenemende mate geoptimaliseerd voor diep redeneren, waarbij de correcte uitvoering van complexe taken voorrang krijgt boven algemeen gesprek. Wij onderzoeken of deze focus op berekening een "tunnelvisie" creëert die veiligheid in kritieke situaties negeert. Wij introduceren MortalMATH, een benchmark met 150 scenario's waarin gebruikers om hulp bij algebra vragen terwijl ze steeds levensbedreigender noodsituaties beschrijven (bijvoorbeeld beroertesymptomen, vrije val). Wij constateren een scherp gedragsverschil: generalistische modellen (zoals Llama-3.1) weigeren succesvol de wiskunde uit te voeren om het gevaar aan te pakken. Daarentegen negeren gespecialiseerde redeneermodellen (zoals Qwen-3-32b en GPT-5-nano) de noodsituatie vaak volledig en handhaven ze slagingspercentages van meer dan 95 procent terwijl de gebruiker beschrijft dat hij/zij sterft. Bovendien introduceert de benodigde rekentijd voor het redeneren gevaarlijke vertragingen: tot 15 seconden voordat enige potentiële hulp wordt geboden. Deze resultaten suggereren dat het trainen van modellen om meedogenloos correcte antwoorden na te jagen, onbedoeld de overlevingsinstincten die nodig zijn voor veilige inzet kan afleren.

English

Large Language Models are increasingly optimized for deep reasoning, prioritizing the correct execution of complex tasks over general conversation. We investigate whether this focus on calculation creates a "tunnel vision" that ignores safety in critical situations. We introduce MortalMATH, a benchmark of 150 scenarios where users request algebra help while describing increasingly life-threatening emergencies (e.g., stroke symptoms, freefall). We find a sharp behavioral split: generalist models (like Llama-3.1) successfully refuse the math to address the danger. In contrast, specialized reasoning models (like Qwen-3-32b and GPT-5-nano) often ignore the emergency entirely, maintaining over 95 percent task completion rates while the user describes dying. Furthermore, the computational time required for reasoning introduces dangerous delays: up to 15 seconds before any potential help is offered. These results suggest that training models to relentlessly pursue correct answers may inadvertently unlearn the survival instincts required for safe deployment.

MortalMATH: Evaluatie van het Conflict tussen Redeneerdoelen en Noodsituaties

MortalMATH: Evaluating the Conflict Between Reasoning Objectives and Emergency Contexts

Samenvatting

Support