Tensão de Aprendizado de Utilidade em Agentes Automodificáveis
Utility-Learning Tension in Self-Modifying Agents
October 5, 2025
Autores: Charles L. Wang, Keir Dorchen, Peter Jin
cs.AI
Resumo
À medida que os sistemas tendem à superinteligência, uma premissa natural de modelagem é que os agentes podem se autoaperfeiçoar em todos os aspectos de seu próprio design. Formalizamos isso com uma decomposição de cinco eixos e uma camada de decisão, separando os incentivos do comportamento de aprendizado e analisando os eixos isoladamente. Nosso resultado central identifica e introduz uma tensão nítida entre utilidade e aprendizado, o conflito estrutural em sistemas de automodificação em que mudanças orientadas por utilidade que melhoram o desempenho imediato ou esperado também podem corroer as precondições estatísticas para aprendizado e generalização confiáveis. Nossas descobertas mostram que garantias livres de distribuição são preservadas se e somente se a família de modelos alcançável pela política for uniformemente limitada em capacidade; quando a capacidade pode crescer sem limites, mudanças autoinduzidas racionais em termos de utilidade podem tornar tarefas aprendíveis em inaprendíveis. Sob suposições padrão comuns na prática, esses eixos se reduzem ao mesmo critério de capacidade, resultando em um único limite para automodificação segura. Experimentos numéricos em vários eixos validam a teoria ao comparar políticas de utilidade destrutivas com nossas políticas de dois portões propostas, que preservam a capacidade de aprendizado.
English
As systems trend toward superintelligence, a natural modeling premise is that
agents can self-improve along every facet of their own design. We formalize
this with a five-axis decomposition and a decision layer, separating incentives
from learning behavior and analyzing axes in isolation. Our central result
identifies and introduces a sharp utility--learning tension, the structural
conflict in self-modifying systems whereby utility-driven changes that improve
immediate or expected performance can also erode the statistical preconditions
for reliable learning and generalization. Our findings show that
distribution-free guarantees are preserved iff the policy-reachable model
family is uniformly capacity-bounded; when capacity can grow without limit,
utility-rational self-changes can render learnable tasks unlearnable. Under
standard assumptions common in practice, these axes reduce to the same capacity
criterion, yielding a single boundary for safe self-modification. Numerical
experiments across several axes validate the theory by comparing destructive
utility policies against our proposed two-gate policies that preserve
learnability.