Nutzen-Lernen-Spannung bei selbstmodifizierenden Agenten
Utility-Learning Tension in Self-Modifying Agents
October 5, 2025
papers.authors: Charles L. Wang, Keir Dorchen, Peter Jin
cs.AI
papers.abstract
Da Systeme in Richtung Superintelligenz tendieren, ist eine natürliche Modellierungsannahme, dass Agenten sich in jeder Facette ihres eigenen Designs selbst verbessern können. Wir formalisieren dies mit einer fünfachsigen Zerlegung und einer Entscheidungsschicht, die Anreize vom Lernverhalten trennt und die Achsen isoliert analysiert. Unser zentrales Ergebnis identifiziert und führt eine scharfe Nutzen-Lern-Spannung ein, den strukturellen Konflikt in selbstmodifizierenden Systemen, bei dem nutzengetriebene Veränderungen, die die unmittelbare oder erwartete Leistung verbessern, auch die statistischen Voraussetzungen für zuverlässiges Lernen und Generalisierung untergraben können. Unsere Ergebnisse zeigen, dass verteilungsfreie Garantien genau dann erhalten bleiben, wenn die durch die Politik erreichbare Modellfamilie gleichmäßig kapazitätsbeschränkt ist; wenn die Kapazität ohne Grenzen wachsen kann, können nutzenrationale Selbstveränderungen lernbare Aufgaben unlernbar machen. Unter Standardannahmen, die in der Praxis üblich sind, reduzieren sich diese Achsen auf dasselbe Kapazitätskriterium, was eine einzige Grenze für sichere Selbstmodifikation ergibt. Numerische Experimente über mehrere Achsen validieren die Theorie, indem sie zerstörerische Nutzenpolitiken mit unseren vorgeschlagenen Zwei-Tor-Politiken vergleichen, die die Lernfähigkeit bewahren.
English
As systems trend toward superintelligence, a natural modeling premise is that
agents can self-improve along every facet of their own design. We formalize
this with a five-axis decomposition and a decision layer, separating incentives
from learning behavior and analyzing axes in isolation. Our central result
identifies and introduces a sharp utility--learning tension, the structural
conflict in self-modifying systems whereby utility-driven changes that improve
immediate or expected performance can also erode the statistical preconditions
for reliable learning and generalization. Our findings show that
distribution-free guarantees are preserved iff the policy-reachable model
family is uniformly capacity-bounded; when capacity can grow without limit,
utility-rational self-changes can render learnable tasks unlearnable. Under
standard assumptions common in practice, these axes reduce to the same capacity
criterion, yielding a single boundary for safe self-modification. Numerical
experiments across several axes validate the theory by comparing destructive
utility policies against our proposed two-gate policies that preserve
learnability.