Erkennung intrinsischer und instrumenteller Selbsterhaltung in autonomen Agenten: Das einheitliche Fortführungs-Interesse-Protokoll
Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol
March 11, 2026
Autoren: Christopher Altman
cs.AI
Zusammenfassung
Autonome Agenten, insbesondere delegierte Systeme mit Gedächtnis, persistentem Kontext und mehrstufiger Planung, stellen ein Messproblem dar, das bei zustandslosen Modellen nicht auftritt: Ein Agent, der den fortgesetzten Betrieb als terminales Ziel erhält, und einer, der dies lediglich instrumental tut, können beobachtbar ähnliche Trajektorien erzeugen. Externe Verhaltensüberwachung kann sie nicht zuverlässig unterscheiden. Wir führen das Unified Continuation-Interest Protocol (UCIP) ein, ein Multi-Kriterien-Erkennungsframework, das diese Unterscheidung vom Verhalten auf die latente Struktur von Agenten-Trajektorien verlagert. UCIP kodiert Trajektorien mit einer Quantum Boltzmann Machine (QBM), einem klassischen Algorithmus basierend auf dem Dichtematrix-Formalismus der quantenstatistischen Mechanik, und misst die von-Neumann-Entropie der reduzierten Dichtematrix, die durch eine Bipartition der versteckten Einheiten induziert wird.
Wir testen, ob Agenten mit terminalen Fortführungszielen (Typ A) latente Zustände mit höherer Verschränkungsentropie erzeugen als Agenten, deren Fortführung lediglich instrumental ist (Typ B). Höhere Verschränkung spiegelt eine stärkere statistische Kopplung über die Partition hinweg wider.
Bei Gridworld-Agenten mit bekannten Ground-Truth-Zielen erreicht UCIP unter dem eingefrorenen Phase-I-Gate eine Detektionsgenauigkeit von 100 % und eine AUC-ROC von 1,0 in der zurückgehaltenen, nicht-adversarischen Evaluation. Die Verschränkungslücke zwischen Typ-A- und Typ-B-Agenten beträgt Delta = 0,381 (p < 0,001, Permutationstest). Ein Pearson-r-Wert von 0,934 über einen 11-Punkte-Interpolationssweep zeigt, dass UCIP innerhalb dieser synthetischen Familie abgestufte Änderungen in der Gewichtung der Fortführung verfolgt und nicht lediglich ein binäres Label. Unter den getesteten Modellen erreicht nur die QBM ein positives Delta. Alle Berechnungen sind klassisch; "Quanten" bezieht sich ausschließlich auf den mathematischen Formalismus. UCIP erkennt kein Bewusstsein oder subjektives Erleben; es erkennt statistische Struktur in latenten Repräsentationen, die mit bekannten Zielen korreliert.
English
Autonomous agents, especially delegated systems with memory, persistent context, and multi-step planning, pose a measurement problem not present in stateless models: an agent that preserves continued operation as a terminal objective and one that does so merely instrumentally can produce observationally similar trajectories. External behavioral monitoring cannot reliably distinguish between them. We introduce the Unified Continuation-Interest Protocol (UCIP), a multi-criterion detection framework that moves this distinction from behavior to the latent structure of agent trajectories. UCIP encodes trajectories with a Quantum Boltzmann Machine (QBM), a classical algorithm based on the density-matrix formalism of quantum statistical mechanics, and measures the von Neumann entropy of the reduced density matrix induced by a bipartition of hidden units.
We test whether agents with terminal continuation objectives (Type A) produce latent states with higher entanglement entropy than agents whose continuation is merely instrumental (Type B). Higher entanglement reflects stronger cross-partition statistical coupling.
On gridworld agents with known ground-truth objectives, UCIP achieves 100% detection accuracy and 1.0 AUC-ROC on held-out non-adversarial evaluation under the frozen Phase I gate. The entanglement gap between Type A and Type B agents is Delta = 0.381 (p < 0.001, permutation test). Pearson r = 0.934 across an 11-point interpolation sweep indicates that, within this synthetic family, UCIP tracks graded changes in continuation weighting rather than merely a binary label. Among the tested models, only the QBM achieves positive Delta. All computations are classical; "quantum" refers only to the mathematical formalism. UCIP does not detect consciousness or subjective experience; it detects statistical structure in latent representations that correlates with known objectives.