自律エージェントにおける内発的・手段的自己保存の検出:統合的持続関心プロトコル
Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol
March 11, 2026
著者: Christopher Altman
cs.AI
要旨
自律エージェント、特にメモリ、永続的コンテキスト、多段階計画を備えた委任システムは、ステートレスモデルには存在しない計測問題を提起する。継続的な動作維持を終端目的とするエージェントと、単に手段としてそれを実行するエージェントは、観測上類似した軌跡を生成し得る。外部からの行動監視では両者を確実に区別できない。我々は、この区別を行動からエージェント軌跡の潜在構造へ移行させる多基準検出フレームワークである統一継続関心プロトコル(UCIP)を提案する。UCIPは、量子統計力学の密度行列形式論に基づく古典アルゴリズムである量子ボルツマンマシン(QBM)を用いて軌跡を符号化し、隠れユニットの二分割によって誘導される縮約密度行列のフォン・ノイマンエントロピーを測定する。
終端目的として継続を有するエージェント(タイプA)が、継続が単に手段であるエージェント(タイプB)よりも高いエンタングルメントエントロピーを持つ潜在状態を生成するか否かを検証する。高いエンタングルメントは、分割間の統計的結合の強さを反映する。
真の目的が既知のグリッドワールドエージェントにおいて、UCIPは固定化されたフェーズIゲート下での保留された非敵対的評価において、100%の検出精度と1.0のAUC-ROCを達成した。タイプAとタイプBエージェント間のエンタングルメント格差はΔ = 0.381(p < 0.001、順列検定)であった。11点補間スイープにおけるピアソン相関係数r = 0.934は、この合成的な族内において、UCIPが単なる二値ラベルではなく、継続の重み付けの段階的変化を追跡することを示唆する。テストされたモデルの中では、QBMのみが正のΔを達成した。全ての計算は古典的であり、「量子」は数学的形式論を指すのみである。UCIPは意識や主観的経験を検出するものではなく、既知の目的と相関する潜在表現内の統計的構造を検出する。
English
Autonomous agents, especially delegated systems with memory, persistent context, and multi-step planning, pose a measurement problem not present in stateless models: an agent that preserves continued operation as a terminal objective and one that does so merely instrumentally can produce observationally similar trajectories. External behavioral monitoring cannot reliably distinguish between them. We introduce the Unified Continuation-Interest Protocol (UCIP), a multi-criterion detection framework that moves this distinction from behavior to the latent structure of agent trajectories. UCIP encodes trajectories with a Quantum Boltzmann Machine (QBM), a classical algorithm based on the density-matrix formalism of quantum statistical mechanics, and measures the von Neumann entropy of the reduced density matrix induced by a bipartition of hidden units.
We test whether agents with terminal continuation objectives (Type A) produce latent states with higher entanglement entropy than agents whose continuation is merely instrumental (Type B). Higher entanglement reflects stronger cross-partition statistical coupling.
On gridworld agents with known ground-truth objectives, UCIP achieves 100% detection accuracy and 1.0 AUC-ROC on held-out non-adversarial evaluation under the frozen Phase I gate. The entanglement gap between Type A and Type B agents is Delta = 0.381 (p < 0.001, permutation test). Pearson r = 0.934 across an 11-point interpolation sweep indicates that, within this synthetic family, UCIP tracks graded changes in continuation weighting rather than merely a binary label. Among the tested models, only the QBM achieves positive Delta. All computations are classical; "quantum" refers only to the mathematical formalism. UCIP does not detect consciousness or subjective experience; it detects statistical structure in latent representations that correlates with known objectives.