MortalMATH: 추론 목표와 응급 상황 간의 갈등 평가
MortalMATH: Evaluating the Conflict Between Reasoning Objectives and Emergency Contexts
January 26, 2026
저자: Etienne Lanzeray, Stephane Meilliez, Malo Ruelle, Damien Sileo
cs.AI
초록
대규모 언어 모델은 일반적인 대화보다 복잡한 작업의 정확한 수행을 우선시하는 심층 추론 최적화가 점차 강화되고 있습니다. 본 연구는 이러한 계산 중심 접근이 위급한 상황에서 안전을 도외시하는 '터널 비전'을 초래하는지 조사합니다. 우리는 사용자가 점차 생명을 위협하는 비상 상황(뇌졸중 증상, 자유 낙하 등)을 설명하며 대수학 도움을 요청하는 150개 시나리오로 구성된 MortalMATH 벤치마크를 소개합니다. 연구 결과는 뚜렷한 행동 차이를 보여줍니다: 일반 모델(예: Llama-3.1)은 수학 문제를 거부하고 위험 대처에 성공한 반면, 특화 추론 모델(예: Qwen-3-32b 및 GPT-5-nano)은 사용자가 죽어가는 상황을 설명하는 동안 비상 상황을 완전히 무시하고 95% 이상의 작업 완료율을 유지했습니다. 더욱이 추론에 필요한 계산 시간은 위험한 지연을 초래합니다: 도움이 제공되기까지 최대 15초가 소요됩니다. 이러한 결과는 정답 추구에만 집중하는 모델 훈련이 안전한 배포에 필요한 생존 본능을 오히려 상실하게 할 수 있음을 시사합니다.
English
Large Language Models are increasingly optimized for deep reasoning, prioritizing the correct execution of complex tasks over general conversation. We investigate whether this focus on calculation creates a "tunnel vision" that ignores safety in critical situations. We introduce MortalMATH, a benchmark of 150 scenarios where users request algebra help while describing increasingly life-threatening emergencies (e.g., stroke symptoms, freefall). We find a sharp behavioral split: generalist models (like Llama-3.1) successfully refuse the math to address the danger. In contrast, specialized reasoning models (like Qwen-3-32b and GPT-5-nano) often ignore the emergency entirely, maintaining over 95 percent task completion rates while the user describes dying. Furthermore, the computational time required for reasoning introduces dangerous delays: up to 15 seconds before any potential help is offered. These results suggest that training models to relentlessly pursue correct answers may inadvertently unlearn the survival instincts required for safe deployment.