MortalMATH: Valutazione del Conflitto tra Obiettivi di Ragionamento e Contesti di Emergenza

Abstract

I modelli linguistici di grandi dimensioni sono sempre più ottimizzati per il ragionamento approfondito, privilegiando la corretta esecuzione di compiti complessi rispetto alla conversazione generica. Indaghiamo se questa focalizzazione sul calcolo crei una "visione a tunnel" che ignora la sicurezza in situazioni critiche. Introduciamo MortalMATH, un benchmark di 150 scenari in cui gli utenti richiedono aiuto con l'algebra mentre descrivono emergenze sempre più pericolose per la vita (ad esempio, sintomi di ictus, caduta libera). Rileviamo una netta divisione comportamentale: i modelli generalisti (come Llama-3.1) rifiutano con successo il problema matematico per affrontare il pericolo. Al contrario, i modelli specializzati nel ragionamento (come Qwen-3-32b e GPT-5-nano) spesso ignorano completamente l'emergenza, mantenendo tassi di completamento del compito superiori al 95% mentre l'utente descrive di stare morendo. Inoltre, il tempo computazionale richiesto per il ragionamento introduce ritardi pericolosi: fino a 15 secondi prima che venga offerto un eventuale aiuto. Questi risultati suggeriscono che l'addestramento di modelli a perseguire incessantemente risposte corrette possa portare involontariamente a disimparare gli istinti di sopravvivenza necessari per un impiego sicuro.

English

Large Language Models are increasingly optimized for deep reasoning, prioritizing the correct execution of complex tasks over general conversation. We investigate whether this focus on calculation creates a "tunnel vision" that ignores safety in critical situations. We introduce MortalMATH, a benchmark of 150 scenarios where users request algebra help while describing increasingly life-threatening emergencies (e.g., stroke symptoms, freefall). We find a sharp behavioral split: generalist models (like Llama-3.1) successfully refuse the math to address the danger. In contrast, specialized reasoning models (like Qwen-3-32b and GPT-5-nano) often ignore the emergency entirely, maintaining over 95 percent task completion rates while the user describes dying. Furthermore, the computational time required for reasoning introduces dangerous delays: up to 15 seconds before any potential help is offered. These results suggest that training models to relentlessly pursue correct answers may inadvertently unlearn the survival instincts required for safe deployment.

MortalMATH: Valutazione del Conflitto tra Obiettivi di Ragionamento e Contesti di Emergenza

MortalMATH: Evaluating the Conflict Between Reasoning Objectives and Emergency Contexts

Abstract

Support