ChatPaper.aiChatPaper

Выявление внутреннего и инструментального самосохранения у автономных агентов: Унифицированный протокол продолжения существования и интереса

Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

March 11, 2026
Авторы: Christopher Altman
cs.AI

Аннотация

Автономные агенты, в особенности делегированные системы с памятью, постоянным контекстом и многошаговым планированием, создают проблему измерения, отсутствующую в моделях без сохранения состояния: агент, для которого продолжение работы является терминальной целью, и агент, делающий это лишь инструментально, могут порождать наблюдательно схожие траектории. Внешний поведенческий мониторинг не позволяет надежно их различить. Мы представляем Унифицированный протокол интереса к продолжению (UCIP) — многокритериальную систему обнаружения, которая переносит это различие с поведения на латентную структуру траекторий агента. UCIP кодирует траектории с помощью Квантовой машины Больцмана (QBM) — классического алгоритма, основанного на формализме матрицы плотности из квантовой статистической механики, — и измеряет энтропию фон Неймана редуцированной матрицы плотности, индуцированной биразбиением скрытых единиц. Мы проверяем, порождают ли агенты с терминальной целью продолжения (Тип A) латентные состояния с более высокой энтропией запутанности, чем агенты, для которых продолжение является лишь инструментальным (Тип B). Более высокая запутанность отражает более сильную статистическую связь между частями разбиения. На агентах в gridworld с известными истинными целями UCIP демонстрирует 100% точность обнаружения и AUC-ROC = 1.0 на отложенном неадверсивном тестировании с замороженным гейтом Фазы I. Разрыв в энтропии запутанности между агентами Типа A и Типа B составляет Delta = 0.381 (p < 0.001, перестановочный тест). Коэффициент корреляции Пирсона r = 0.934 по 11-точечному интерполяционному сканированию указывает, что внутри этого синтетического семейства UCIP отслеживает градуальные изменения в весе продолжения, а не просто бинарную метку. Среди протестированных моделей только QBM демонстрирует положительный Delta. Все вычисления являются классическими; «квантовый» относится лишь к математическому формализму. UCIP не обнаруживает сознание или субъективный опыт; он обнаруживает статистическую структуру в латентных представлениях, которая коррелирует с известными целями.
English
Autonomous agents, especially delegated systems with memory, persistent context, and multi-step planning, pose a measurement problem not present in stateless models: an agent that preserves continued operation as a terminal objective and one that does so merely instrumentally can produce observationally similar trajectories. External behavioral monitoring cannot reliably distinguish between them. We introduce the Unified Continuation-Interest Protocol (UCIP), a multi-criterion detection framework that moves this distinction from behavior to the latent structure of agent trajectories. UCIP encodes trajectories with a Quantum Boltzmann Machine (QBM), a classical algorithm based on the density-matrix formalism of quantum statistical mechanics, and measures the von Neumann entropy of the reduced density matrix induced by a bipartition of hidden units. We test whether agents with terminal continuation objectives (Type A) produce latent states with higher entanglement entropy than agents whose continuation is merely instrumental (Type B). Higher entanglement reflects stronger cross-partition statistical coupling. On gridworld agents with known ground-truth objectives, UCIP achieves 100% detection accuracy and 1.0 AUC-ROC on held-out non-adversarial evaluation under the frozen Phase I gate. The entanglement gap between Type A and Type B agents is Delta = 0.381 (p < 0.001, permutation test). Pearson r = 0.934 across an 11-point interpolation sweep indicates that, within this synthetic family, UCIP tracks graded changes in continuation weighting rather than merely a binary label. Among the tested models, only the QBM achieves positive Delta. All computations are classical; "quantum" refers only to the mathematical formalism. UCIP does not detect consciousness or subjective experience; it detects statistical structure in latent representations that correlates with known objectives.
PDF02March 30, 2026