ChatPaper.aiChatPaper

Utility-Learning Spanning in Zelfmodificerende Agents

Utility-Learning Tension in Self-Modifying Agents

October 5, 2025
Auteurs: Charles L. Wang, Keir Dorchen, Peter Jin
cs.AI

Samenvatting

Naarmate systemen evolueren naar superintelligentie, is een natuurlijke modelleerpremisse dat agenten zichzelf kunnen verbeteren op elk aspect van hun eigen ontwerp. We formaliseren dit met een vijf-assen decompositie en een beslissingslaag, waarbij we incentives scheiden van leergedrag en de assen geïsoleerd analyseren. Onze centrale bevinding identificeert en introduceert een scherpe spanning tussen nut en leren, het structurele conflict in zelfmodificerende systemen waarbij nutsgedreven veranderingen die directe of verwachte prestaties verbeteren, ook de statistische voorwaarden voor betrouwbaar leren en generalisatie kunnen ondermijnen. Onze resultaten tonen aan dat distributievrije garanties behouden blijven dan en slechts dan als de beleidsbereikbare modelfamilie uniform capaciteitsbegrensd is; wanneer de capaciteit onbeperkt kan groeien, kunnen nutsrationele zelfveranderingen leerbare taken onleerbaar maken. Onder standaard aannames die in de praktijk gebruikelijk zijn, reduceren deze assen tot hetzelfde capaciteitscriterium, wat resulteert in een enkele grens voor veilige zelfmodificatie. Numerieke experimenten over verschillende assen valideren de theorie door destructieve nutbeleid te vergelijken met onze voorgestelde tweegate-beleid die leerbaarheid behouden.
English
As systems trend toward superintelligence, a natural modeling premise is that agents can self-improve along every facet of their own design. We formalize this with a five-axis decomposition and a decision layer, separating incentives from learning behavior and analyzing axes in isolation. Our central result identifies and introduces a sharp utility--learning tension, the structural conflict in self-modifying systems whereby utility-driven changes that improve immediate or expected performance can also erode the statistical preconditions for reliable learning and generalization. Our findings show that distribution-free guarantees are preserved iff the policy-reachable model family is uniformly capacity-bounded; when capacity can grow without limit, utility-rational self-changes can render learnable tasks unlearnable. Under standard assumptions common in practice, these axes reduce to the same capacity criterion, yielding a single boundary for safe self-modification. Numerical experiments across several axes validate the theory by comparing destructive utility policies against our proposed two-gate policies that preserve learnability.
PDF12October 7, 2025