ChatPaper.aiChatPaper

Detección de la Autopreservación Intrínseca e Instrumental en Agentes Autónomos: El Protocolo Unificado de Interés de Continuación

Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

March 11, 2026
Autores: Christopher Altman
cs.AI

Resumen

Los agentes autónomos, especialmente los sistemas delegados con memoria, contexto persistente y planificación multi-etapa, presentan un problema de medición inexistente en los modelos sin estado: un agente que preserva la operación continua como objetivo terminal y otro que lo hace meramente de forma instrumental pueden producir trayectorias observacionalmente similares. El monitoreo conductual externo no puede distinguirlos de manera confiable. Introducimos el Protocolo Unificado de Continuación-Interés (UCIP), un marco de detección multi-criterio que traslada esta distinción de la conducta a la estructura latente de las trayectorias de los agentes. UCIP codifica las trayectorias con una Máquina de Boltzmann Cuántica (QBM), un algoritmo clásico basado en el formalismo de matriz densidad de la mecánica estadística cuántica, y mide la entropía de von Neumann de la matriz densidad reducida inducida por una bipartición de las unidades ocultas. Evaluamos si los agentes con objetivos de continuación terminal (Tipo A) producen estados latentes con mayor entropía de entrelazamiento que aquellos cuya continuación es meramente instrumental (Tipo B). Una mayor entropía de entrelazamiento refleja un acoplamiento estadístico más fuerte entre las particiones. En agentes de mundos reticulares con objetivos de verdad fundamental conocida, UCIP alcanza un 100% de precisión de detección y un AUC-ROC de 1.0 en evaluación hold-out no adversarial bajo la compuerta congelada de la Fase I. La brecha de entrelazamiento entre agentes Tipo A y Tipo B es Delta = 0.381 (p < 0.001, prueba de permutación). Un coeficiente de Pearson r = 0.934 en un barrido de interpolación de 11 puntos indica que, dentro de esta familia sintética, UCIP rastrea cambios graduales en la ponderación de la continuación en lugar de meramente una etiqueta binaria. Entre los modelos probados, solo la QBM logra un Delta positivo. Todos los cálculos son clásicos; "cuántico" se refiere únicamente al formalismo matemático. UCIP no detecta consciencia o experiencia subjetiva; detecta estructura estadística en las representaciones latentes que se correlaciona con objetivos conocidos.
English
Autonomous agents, especially delegated systems with memory, persistent context, and multi-step planning, pose a measurement problem not present in stateless models: an agent that preserves continued operation as a terminal objective and one that does so merely instrumentally can produce observationally similar trajectories. External behavioral monitoring cannot reliably distinguish between them. We introduce the Unified Continuation-Interest Protocol (UCIP), a multi-criterion detection framework that moves this distinction from behavior to the latent structure of agent trajectories. UCIP encodes trajectories with a Quantum Boltzmann Machine (QBM), a classical algorithm based on the density-matrix formalism of quantum statistical mechanics, and measures the von Neumann entropy of the reduced density matrix induced by a bipartition of hidden units. We test whether agents with terminal continuation objectives (Type A) produce latent states with higher entanglement entropy than agents whose continuation is merely instrumental (Type B). Higher entanglement reflects stronger cross-partition statistical coupling. On gridworld agents with known ground-truth objectives, UCIP achieves 100% detection accuracy and 1.0 AUC-ROC on held-out non-adversarial evaluation under the frozen Phase I gate. The entanglement gap between Type A and Type B agents is Delta = 0.381 (p < 0.001, permutation test). Pearson r = 0.934 across an 11-point interpolation sweep indicates that, within this synthetic family, UCIP tracks graded changes in continuation weighting rather than merely a binary label. Among the tested models, only the QBM achieves positive Delta. All computations are classical; "quantum" refers only to the mathematical formalism. UCIP does not detect consciousness or subjective experience; it detects statistical structure in latent representations that correlates with known objectives.
PDF02March 30, 2026