ChatPaper.aiChatPaper

Détection de l'auto-préservation intrinsèque et instrumentale chez les agents autonomes : Le Protocole Unifié de Continuation-Intérêt

Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

March 11, 2026
Auteurs: Christopher Altman
cs.AI

Résumé

Les agents autonomes, en particulier les systèmes délégués dotés de mémoire, de contexte persistant et de planification multi-étapes, posent un problème de mesure absent dans les modèles sans état : un agent qui préserve une opération continue comme objectif terminal et un autre qui le fait de manière purement instrumentale peuvent produire des trajectoires observationnellement similaires. La surveillance comportementale externe ne peut pas les distinguer de manière fiable. Nous présentons le Protocole Unifié d'Intérêt-Continuation (UCIP), un cadre de détection multi-critères qui déplace cette distinction du comportement vers la structure latente des trajectoires d'agents. UCIP encode les trajectoires avec une Machine de Boltzmann Quantique (QBM), un algorithme classique basé sur le formalisme de la matrice densité de la mécanique statistique quantique, et mesure l'entropie de von Neumann de la matrice densité réduite induite par une bipartition des unités cachées. Nous testons si les agents ayant des objectifs de continuation terminaux (Type A) produisent des états latents avec une entropie d'intrication plus élevée que les agents dont la continuation est purement instrumentale (Type B). Une intrication plus élevée reflète un couplage statistique plus fort entre les partitions. Sur des agents dans des mondes en grille avec des objectifs de vérité terrain connus, UCIP atteint une précision de détection de 100 % et une AUC-ROC de 1,0 lors de l'évaluation non antagoniste sur données de test sous la porte gelée de la Phase I. L'écart d'intrication entre les agents de Type A et de Type B est Delta = 0,381 (p < 0,001, test de permutation). Un coefficient de Pearson r = 0,934 sur un balayage d'interpolation à 11 points indique que, au sein de cette famille synthétique, UCIP suit des changements graduels dans la pondération de la continuation plutôt qu'une simple étiquette binaire. Parmi les modèles testés, seul le QBM obtient un Delta positif. Tous les calculs sont classiques ; « quantique » se réfère uniquement au formalisme mathématique. UCIP ne détecte pas la conscience ou l'expérience subjective ; il détecte une structure statistique dans les représentations latentes qui corrèle avec les objectifs connus.
English
Autonomous agents, especially delegated systems with memory, persistent context, and multi-step planning, pose a measurement problem not present in stateless models: an agent that preserves continued operation as a terminal objective and one that does so merely instrumentally can produce observationally similar trajectories. External behavioral monitoring cannot reliably distinguish between them. We introduce the Unified Continuation-Interest Protocol (UCIP), a multi-criterion detection framework that moves this distinction from behavior to the latent structure of agent trajectories. UCIP encodes trajectories with a Quantum Boltzmann Machine (QBM), a classical algorithm based on the density-matrix formalism of quantum statistical mechanics, and measures the von Neumann entropy of the reduced density matrix induced by a bipartition of hidden units. We test whether agents with terminal continuation objectives (Type A) produce latent states with higher entanglement entropy than agents whose continuation is merely instrumental (Type B). Higher entanglement reflects stronger cross-partition statistical coupling. On gridworld agents with known ground-truth objectives, UCIP achieves 100% detection accuracy and 1.0 AUC-ROC on held-out non-adversarial evaluation under the frozen Phase I gate. The entanglement gap between Type A and Type B agents is Delta = 0.381 (p < 0.001, permutation test). Pearson r = 0.934 across an 11-point interpolation sweep indicates that, within this synthetic family, UCIP tracks graded changes in continuation weighting rather than merely a binary label. Among the tested models, only the QBM achieves positive Delta. All computations are classical; "quantum" refers only to the mathematical formalism. UCIP does not detect consciousness or subjective experience; it detects statistical structure in latent representations that correlates with known objectives.
PDF02March 30, 2026