Tensión entre Utilidad y Aprendizaje en Agentes Automodificables
Utility-Learning Tension in Self-Modifying Agents
October 5, 2025
Autores: Charles L. Wang, Keir Dorchen, Peter Jin
cs.AI
Resumen
A medida que los sistemas tienden hacia la superinteligencia, una premisa de modelado natural es que los agentes pueden automejorarse en todos los aspectos de su propio diseño. Formalizamos esto con una descomposición de cinco ejes y una capa de decisión, separando los incentivos del comportamiento de aprendizaje y analizando los ejes de manera aislada. Nuestro resultado principal identifica e introduce una tensión aguda entre utilidad y aprendizaje, el conflicto estructural en los sistemas de automodificación en el que los cambios impulsados por la utilidad que mejoran el rendimiento inmediato o esperado también pueden erosionar las precondiciones estadísticas para un aprendizaje y generalización confiables. Nuestros hallazgos muestran que las garantías libres de distribución se preservan si y solo si la familia de modelos alcanzable por la política está uniformemente limitada en capacidad; cuando la capacidad puede crecer sin límite, los cambios autoimpuestos racionales en términos de utilidad pueden hacer que tareas aprendibles se vuelvan inaprendibles. Bajo supuestos estándar comunes en la práctica, estos ejes se reducen al mismo criterio de capacidad, lo que produce un único límite para la automodificación segura. Experimentos numéricos en varios ejes validan la teoría al comparar políticas de utilidad destructivas contra nuestras políticas propuestas de dos compuertas que preservan la capacidad de aprendizaje.
English
As systems trend toward superintelligence, a natural modeling premise is that
agents can self-improve along every facet of their own design. We formalize
this with a five-axis decomposition and a decision layer, separating incentives
from learning behavior and analyzing axes in isolation. Our central result
identifies and introduces a sharp utility--learning tension, the structural
conflict in self-modifying systems whereby utility-driven changes that improve
immediate or expected performance can also erode the statistical preconditions
for reliable learning and generalization. Our findings show that
distribution-free guarantees are preserved iff the policy-reachable model
family is uniformly capacity-bounded; when capacity can grow without limit,
utility-rational self-changes can render learnable tasks unlearnable. Under
standard assumptions common in practice, these axes reduce to the same capacity
criterion, yielding a single boundary for safe self-modification. Numerical
experiments across several axes validate the theory by comparing destructive
utility policies against our proposed two-gate policies that preserve
learnability.