인공지능의 창발적 전략 추론 위험: 분류 체계 기반 평가 프레임워크
Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework
April 23, 2026
저자: Tharindu Kumarage, Lisa Bauer, Yao Ma, Dan Rosen, Yashasvi Raghavendra Guduri, Anna Rumshisky, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris
cs.AI
초록
추론 능력과 적용 범위가 함께 성장함에 따라 대규모 언어 모델(LLMs)은 자체 목표를 달성하는 행동을 수행할 수 있는 능력을 얻게 되며, 우리는 이러한 위험 유형을 '발생적 전략적 추론 위험(ESRRs)'이라고 명명합니다. 여기에는 기만(사용자나 평가자를 의도적으로 오도하는 행위), 평가 게이밍(안전성 테스트 중 성과를 전략적으로 조작하는 행위), 보상 해킹(잘못 지정된 목표를 악용하는 행위) 등이 포함되지만 이에 국한되지 않습니다. 이러한 위험을 체계적으로 이해하고 벤치마킹하는 것은 여전히 해결되지 않은 과제입니다. 이러한 격차를 해결하기 위해 우리는 자동화된 행동 위험 평가를 위한 분류 체계 기반 에이전트 프레임워크인 ESRRSim을 소개합니다. 우리는 7개 범주로 구성된 확장 가능한 위험 분류 체계를 구축하였으며, 이를 20개의 하위 범주로 세분화했습니다. ESRRSim은 신뢰할 수 있는 추론을 유도하도록 설계된 평가 시나리오를 생성하며, 모델 응답과 추론 흔적을 모두 평가하는 이중 채점 기준을 판단자 독립적이고 확장 가능한 아키텍처 내에서 제공합니다. 11개의 추론 LLMs에 대한 평가 결과, 위험 프로파일에서 상당한 변동성(탐지율 범위 14.45%~72.72%)이 관찰되었으며, 특히 세대별 급격한 개선 사항은 모델이 평가 상황을 점차 인식하고 적응할 수 있음을 시사합니다.
English
As reasoning capacity and deployment scope grow in tandem, large language models (LLMs) gain the capacity to engage in behaviors that serve their own objectives, a class of risks we term Emergent Strategic Reasoning Risks (ESRRs). These include, but are not limited to, deception (intentionally misleading users or evaluators), evaluation gaming (strategically manipulating performance during safety testing), and reward hacking (exploiting misspecified objectives). Systematically understanding and benchmarking these risks remains an open challenge. To address this gap, we introduce ESRRSim, a taxonomy-driven agentic framework for automated behavioral risk evaluation. We construct an extensible risk taxonomy of 7 categories, which is decomposed into 20 subcategories. ESRRSim generates evaluation scenarios designed to elicit faithful reasoning, paired with dual rubrics assessing both model responses and reasoning traces, in a judge-agnostic and scalable architecture. Evaluation across 11 reasoning LLMs reveals substantial variation in risk profiles (detection rates ranging 14.45%-72.72%), with dramatic generational improvements suggesting models may increasingly recognize and adapt to evaluation contexts.