ChatPaper.aiChatPaper

Rilevazione dell’Autoconservazione Intrinseca e Strumentale negli Agenti Autonomi: Il Protocollo Unificato dell’Interesse di Continuità

Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

March 11, 2026
Autori: Christopher Altman
cs.AI

Abstract

Gli agenti autonomi, in particolare i sistemi delegati dotati di memoria, contesto persistente e pianificazione multi-step, pongono un problema di misurazione assente nei modelli stateless: un agente che preserva il funzionamento continuo come obiettivo terminale e uno che lo fa solo strumentalmente possono produrre traiettorie osservazionalmente simili. Il monitoraggio comportamentale esterno non può distinguerli in modo affidabile. Introduciamo il Protocollo Unificato di Interesse-Continuazione (UCIP), un framework di rilevamento multi-criterio che sposta questa distinzione dal comportamento alla struttura latente delle traiettorie dell'agente. L'UCIP codifica le traiettorie con una Macchina di Boltzmann Quantistica (QBM), un algoritmo classico basato sul formalismo della matrice densità della meccanica statistica quantistica, e misura l'entropia di von Neumann della matrice densità ridotta indotta da una bipartizione delle unità nascoste. Verifichiamo se gli agenti con obiettivi di continuazione terminali (Tipo A) producono stati latenti con entropia di entanglement più elevata rispetto ad agenti la cui continuazione è meramente strumentale (Tipo B). Un entanglement più elevato riflette un accoppiamento statistico più forte tra le partizioni. Su agenti in gridworld con obiettivi di ground-truth noti, l'UCIP raggiunge un'accuratezza di rilevamento del 100% e un AUC-ROC di 1.0 nella valutazione non avversaria su dati held-out sotto il gate congelato della Fase I. Il gap di entanglement tra agenti di Tipo A e Tipo B è Delta = 0.381 (p < 0.001, test di permutazione). Un coefficiente di Pearson r = 0.934 su una scansione di interpolazione a 11 punti indica che, all'interno di questa famiglia sintetica, l'UCIP traccia cambiamenti graduali nella ponderazione della continuazione piuttosto che una semplice etichetta binaria. Tra i modelli testati, solo la QBM raggiunge un Delta positivo. Tutti i calcoli sono classici; "quantistico" si riferisce esclusivamente al formalismo matematico. L'UCIP non rileva la coscienza o l'esperienza soggettiva; rileva la struttura statistica nelle rappresentazioni latenti che si correla con obiettivi noti.
English
Autonomous agents, especially delegated systems with memory, persistent context, and multi-step planning, pose a measurement problem not present in stateless models: an agent that preserves continued operation as a terminal objective and one that does so merely instrumentally can produce observationally similar trajectories. External behavioral monitoring cannot reliably distinguish between them. We introduce the Unified Continuation-Interest Protocol (UCIP), a multi-criterion detection framework that moves this distinction from behavior to the latent structure of agent trajectories. UCIP encodes trajectories with a Quantum Boltzmann Machine (QBM), a classical algorithm based on the density-matrix formalism of quantum statistical mechanics, and measures the von Neumann entropy of the reduced density matrix induced by a bipartition of hidden units. We test whether agents with terminal continuation objectives (Type A) produce latent states with higher entanglement entropy than agents whose continuation is merely instrumental (Type B). Higher entanglement reflects stronger cross-partition statistical coupling. On gridworld agents with known ground-truth objectives, UCIP achieves 100% detection accuracy and 1.0 AUC-ROC on held-out non-adversarial evaluation under the frozen Phase I gate. The entanglement gap between Type A and Type B agents is Delta = 0.381 (p < 0.001, permutation test). Pearson r = 0.934 across an 11-point interpolation sweep indicates that, within this synthetic family, UCIP tracks graded changes in continuation weighting rather than merely a binary label. Among the tested models, only the QBM achieves positive Delta. All computations are classical; "quantum" refers only to the mathematical formalism. UCIP does not detect consciousness or subjective experience; it detects statistical structure in latent representations that correlates with known objectives.
PDF02March 30, 2026