Utility-Learning Spanning in Zelfmodificerende Agents
Utility-Learning Tension in Self-Modifying Agents
October 5, 2025
Auteurs: Charles L. Wang, Keir Dorchen, Peter Jin
cs.AI
Samenvatting
Naarmate systemen evolueren naar superintelligentie, is een natuurlijke modelleerpremisse dat agenten zichzelf kunnen verbeteren op elk aspect van hun eigen ontwerp. We formaliseren dit met een vijf-assen decompositie en een beslissingslaag, waarbij we incentives scheiden van leergedrag en de assen geïsoleerd analyseren. Onze centrale bevinding identificeert en introduceert een scherpe spanning tussen nut en leren, het structurele conflict in zelfmodificerende systemen waarbij nutsgedreven veranderingen die directe of verwachte prestaties verbeteren, ook de statistische voorwaarden voor betrouwbaar leren en generalisatie kunnen ondermijnen. Onze resultaten tonen aan dat distributievrije garanties behouden blijven dan en slechts dan als de beleidsbereikbare modelfamilie uniform capaciteitsbegrensd is; wanneer de capaciteit onbeperkt kan groeien, kunnen nutsrationele zelfveranderingen leerbare taken onleerbaar maken. Onder standaard aannames die in de praktijk gebruikelijk zijn, reduceren deze assen tot hetzelfde capaciteitscriterium, wat resulteert in een enkele grens voor veilige zelfmodificatie. Numerieke experimenten over verschillende assen valideren de theorie door destructieve nutbeleid te vergelijken met onze voorgestelde tweegate-beleid die leerbaarheid behouden.
English
As systems trend toward superintelligence, a natural modeling premise is that
agents can self-improve along every facet of their own design. We formalize
this with a five-axis decomposition and a decision layer, separating incentives
from learning behavior and analyzing axes in isolation. Our central result
identifies and introduces a sharp utility--learning tension, the structural
conflict in self-modifying systems whereby utility-driven changes that improve
immediate or expected performance can also erode the statistical preconditions
for reliable learning and generalization. Our findings show that
distribution-free guarantees are preserved iff the policy-reachable model
family is uniformly capacity-bounded; when capacity can grow without limit,
utility-rational self-changes can render learnable tasks unlearnable. Under
standard assumptions common in practice, these axes reduce to the same capacity
criterion, yielding a single boundary for safe self-modification. Numerical
experiments across several axes validate the theory by comparing destructive
utility policies against our proposed two-gate policies that preserve
learnability.