Detecção de Autopreservação Intrínseca e Instrumental em Agentes Autónomos: O Protocolo Unificado de Continuidade-Interesse
Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol
March 11, 2026
Autores: Christopher Altman
cs.AI
Resumo
Os agentes autónomos, especialmente os sistemas delegados com memória, contexto persistente e planeamento de múltiplos passos, apresentam um problema de medição não existente em modelos sem estado: um agente que preserva a operação contínua como um objetivo terminal e outro que o faz meramente de forma instrumental podem produzir trajetórias observacionalmente semelhantes. A monitorização comportamental externa não consegue distingui-los de forma fiável. Apresentamos o Protocolo Unificado de Continuidade-Interesse (UCIP), uma estrutura de deteção multicritério que transfere esta distinção do comportamento para a estrutura latente das trajetórias dos agentes. O UCIP codifica as trajetórias com uma Máquina de Boltzmann Quântica (QBM), um algoritmo clássico baseado no formalismo da matriz densidade da mecânica estatística quântica, e mede a entropia de von Neumann da matriz densidade reduzida induzida por uma bipartição das unidades ocultas.
Testamos se os agentes com objetivos de continuidade terminal (Tipo A) produzem estados latentes com entropia de emaranhamento mais elevada do que os agentes cuja continuidade é meramente instrumental (Tipo B). Um emaranhamento mais elevado reflete um acoplamento estatístico mais forte entre as partições.
Em agentes de gridworld com objetivos de verdade terrestre conhecidos, o UCIP atinge uma precisão de deteção de 100% e um AUC-ROC de 1.0 na avaliação hold-out não adversarial sob o portão congelado da Fase I. O hiato de emaranhamento entre agentes do Tipo A e do Tipo B é Delta = 0,381 (p < 0,001, teste de permutação). Um coeficiente de Pearson r = 0,934 numa varredura de interpolação de 11 pontos indica que, dentro desta família sintética, o UCIP acompanha mudanças graduais na ponderação da continuidade, e não apenas um rótulo binário. Entre os modelos testados, apenas a QBM alcança um Delta positivo. Todos os cálculos são clássicos; "quântico" refere-se apenas ao formalismo matemático. O UCIP não deteta consciência ou experiência subjetiva; deteta a estrutura estatística nas representações latentes que correlaciona com objetivos conhecidos.
English
Autonomous agents, especially delegated systems with memory, persistent context, and multi-step planning, pose a measurement problem not present in stateless models: an agent that preserves continued operation as a terminal objective and one that does so merely instrumentally can produce observationally similar trajectories. External behavioral monitoring cannot reliably distinguish between them. We introduce the Unified Continuation-Interest Protocol (UCIP), a multi-criterion detection framework that moves this distinction from behavior to the latent structure of agent trajectories. UCIP encodes trajectories with a Quantum Boltzmann Machine (QBM), a classical algorithm based on the density-matrix formalism of quantum statistical mechanics, and measures the von Neumann entropy of the reduced density matrix induced by a bipartition of hidden units.
We test whether agents with terminal continuation objectives (Type A) produce latent states with higher entanglement entropy than agents whose continuation is merely instrumental (Type B). Higher entanglement reflects stronger cross-partition statistical coupling.
On gridworld agents with known ground-truth objectives, UCIP achieves 100% detection accuracy and 1.0 AUC-ROC on held-out non-adversarial evaluation under the frozen Phase I gate. The entanglement gap between Type A and Type B agents is Delta = 0.381 (p < 0.001, permutation test). Pearson r = 0.934 across an 11-point interpolation sweep indicates that, within this synthetic family, UCIP tracks graded changes in continuation weighting rather than merely a binary label. Among the tested models, only the QBM achieves positive Delta. All computations are classical; "quantum" refers only to the mathematical formalism. UCIP does not detect consciousness or subjective experience; it detects statistical structure in latent representations that correlates with known objectives.