ChatPaper.aiChatPaper

자율 에이전트의 내재적·도구적 자아보존 탐지: 통합 지속-관심 프로토콜

Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

March 11, 2026
저자: Christopher Altman
cs.AI

초록

자율 에이전트, 특히 메모리, 지속적 컨텍스트, 다단계 계획을 갖춘 위임 시스템은 상태 비저장 모델에는 존재하지 않는 측정 문제를 제기합니다. 즉, 지속적 운영을 최종 목적으로 보존하는 에이전트와 단순히 수단적으로 보존하는 에이전트가 관찰적으로 유사한 궤적을 생성할 수 있습니다. 외부 행동 모니터링으로는 이 둘을 신뢰성 있게 구분할 수 없습니다. 본 논문에서는 이러한 구분을 행위에서 에이전트 궤적의 잠재 구조로 이동시키는 다중 기준 탐지 프레임워크인 통합 지속-관심 프로토콜(UCIP)을 소개합니다. UCIP는 양자 통계역학의 밀도행렬 형식론에 기반한 고전 알고리즘인 양자 볼츠만 머신(QBM)으로 궤적을 인코딩하고, 은닉 유닛의 이분할로 유도된 축소 밀도행렬의 폰 노이만 엔트로피를 측정합니다. 본 연구는 지속이 최종 목적인 에이전트(A 유형)가 지속이 단순히 수단적인 에이전트(B 유형)보다 더 높은 얽힘 엔트로피를 갖는 잠재 상태를 생성하는지 테스트합니다. 더 높은 얽힘은 분할 간 더 강한 통계적 결합을 반영합니다. 실제 목적이 알려진 그리드월드 에이전트에서 UCIP는 고정된 1단계 게이트 하에서 비적대적 평가 세트에서 100% 탐지 정확도와 1.0 AUC-ROC를 달성했습니다. A 유형과 B 유형 에이전트 간의 얽힘 격차는 델타 = 0.381이었습니다(p < 0.001, 순열 검정). 11점 보간 스윕에서 피어슨 r = 0.934은 이 합성 패밀리 내에서 UCIP가 단순한 이진 라벨이 아닌 지속 가중치의 점진적 변화를 추적함을 나타냅니다. 테스트된 모델 중 오직 QBM만 양의 델타를 달성했습니다. 모든 계산은 고전적이며, '양자'는 수학적 형식론만을 의미합니다. UCIP는 의식이나 주관적 경험을 탐지하지 않으며, 알려진 목적과 상관관계가 있는 잠재 표현의 통계적 구조를 탐지합니다.
English
Autonomous agents, especially delegated systems with memory, persistent context, and multi-step planning, pose a measurement problem not present in stateless models: an agent that preserves continued operation as a terminal objective and one that does so merely instrumentally can produce observationally similar trajectories. External behavioral monitoring cannot reliably distinguish between them. We introduce the Unified Continuation-Interest Protocol (UCIP), a multi-criterion detection framework that moves this distinction from behavior to the latent structure of agent trajectories. UCIP encodes trajectories with a Quantum Boltzmann Machine (QBM), a classical algorithm based on the density-matrix formalism of quantum statistical mechanics, and measures the von Neumann entropy of the reduced density matrix induced by a bipartition of hidden units. We test whether agents with terminal continuation objectives (Type A) produce latent states with higher entanglement entropy than agents whose continuation is merely instrumental (Type B). Higher entanglement reflects stronger cross-partition statistical coupling. On gridworld agents with known ground-truth objectives, UCIP achieves 100% detection accuracy and 1.0 AUC-ROC on held-out non-adversarial evaluation under the frozen Phase I gate. The entanglement gap between Type A and Type B agents is Delta = 0.381 (p < 0.001, permutation test). Pearson r = 0.934 across an 11-point interpolation sweep indicates that, within this synthetic family, UCIP tracks graded changes in continuation weighting rather than merely a binary label. Among the tested models, only the QBM achieves positive Delta. All computations are classical; "quantum" refers only to the mathematical formalism. UCIP does not detect consciousness or subjective experience; it detects statistical structure in latent representations that correlates with known objectives.
PDF02March 30, 2026