Tensione Apprendimento-Utilità negli Agenti Auto-Modificanti
Utility-Learning Tension in Self-Modifying Agents
October 5, 2025
Autori: Charles L. Wang, Keir Dorchen, Peter Jin
cs.AI
Abstract
Man mano che i sistemi tendono verso la superintelligenza, un'ipotesi di modellazione naturale è che gli agenti possano auto-migliorarsi lungo ogni aspetto del loro stesso design. Formalizziamo questo concetto attraverso una scomposizione su cinque assi e un livello decisionale, separando gli incentivi dal comportamento di apprendimento e analizzando gli assi in isolamento. Il nostro risultato principale identifica e introduce una netta tensione tra utilità e apprendimento, il conflitto strutturale nei sistemi auto-modificanti in cui i cambiamenti guidati dall'utilità che migliorano le prestazioni immediate o attese possono anche erodere i prerequisiti statistici per un apprendimento e una generalizzazione affidabili. Le nostre scoperte dimostrano che le garanzie indipendenti dalla distribuzione sono preservate se e solo se la famiglia di modelli raggiungibili dalla politica è uniformemente limitata in capacità; quando la capacità può crescere senza limiti, i cambiamenti auto-indotti razionali rispetto all'utilità possono rendere non apprendibili compiti che altrimenti lo sarebbero. Sotto ipotesi standard comuni nella pratica, questi assi si riducono allo stesso criterio di capacità, producendo un unico confine per una auto-modificazione sicura. Esperimenti numerici su diversi assi convalidano la teoria confrontando politiche di utilità distruttive con le nostre politiche a due cancelli proposte, che preservano l'apprendibilità.
English
As systems trend toward superintelligence, a natural modeling premise is that
agents can self-improve along every facet of their own design. We formalize
this with a five-axis decomposition and a decision layer, separating incentives
from learning behavior and analyzing axes in isolation. Our central result
identifies and introduces a sharp utility--learning tension, the structural
conflict in self-modifying systems whereby utility-driven changes that improve
immediate or expected performance can also erode the statistical preconditions
for reliable learning and generalization. Our findings show that
distribution-free guarantees are preserved iff the policy-reachable model
family is uniformly capacity-bounded; when capacity can grow without limit,
utility-rational self-changes can render learnable tasks unlearnable. Under
standard assumptions common in practice, these axes reduce to the same capacity
criterion, yielding a single boundary for safe self-modification. Numerical
experiments across several axes validate the theory by comparing destructive
utility policies against our proposed two-gate policies that preserve
learnability.