ChatPaper.aiChatPaper

Tension entre Apprentissage et Utilité chez les Agents Auto-Modifiants

Utility-Learning Tension in Self-Modifying Agents

October 5, 2025
papers.authors: Charles L. Wang, Keir Dorchen, Peter Jin
cs.AI

papers.abstract

À mesure que les systèmes tendent vers la superintelligence, une prémisse de modélisation naturelle est que les agents peuvent s’auto-améliorer sur tous les aspects de leur propre conception. Nous formalisons cela avec une décomposition en cinq axes et une couche de décision, séparant les incitations du comportement d’apprentissage et analysant les axes de manière isolée. Notre résultat principal identifie et introduit une tension nette entre utilité et apprentissage, le conflit structurel dans les systèmes auto-modifiables où les changements motivés par l’utilité qui améliorent les performances immédiates ou attendues peuvent également éroder les préconditions statistiques pour un apprentissage et une généralisation fiables. Nos résultats montrent que les garanties indépendantes de la distribution sont préservées si et seulement si la famille de modèles accessible par la politique est uniformément bornée en capacité ; lorsque la capacité peut croître sans limite, les auto-modifications rationnelles en termes d’utilité peuvent rendre des tâches apprenables inapprenables. Sous des hypothèses standard couramment utilisées en pratique, ces axes se réduisent au même critère de capacité, produisant une frontière unique pour une auto-modification sûre. Des expériences numériques sur plusieurs axes valident la théorie en comparant des politiques d’utilité destructrices à nos politiques à deux portes proposées, qui préservent l’apprenabilité.
English
As systems trend toward superintelligence, a natural modeling premise is that agents can self-improve along every facet of their own design. We formalize this with a five-axis decomposition and a decision layer, separating incentives from learning behavior and analyzing axes in isolation. Our central result identifies and introduces a sharp utility--learning tension, the structural conflict in self-modifying systems whereby utility-driven changes that improve immediate or expected performance can also erode the statistical preconditions for reliable learning and generalization. Our findings show that distribution-free guarantees are preserved iff the policy-reachable model family is uniformly capacity-bounded; when capacity can grow without limit, utility-rational self-changes can render learnable tasks unlearnable. Under standard assumptions common in practice, these axes reduce to the same capacity criterion, yielding a single boundary for safe self-modification. Numerical experiments across several axes validate the theory by comparing destructive utility policies against our proposed two-gate policies that preserve learnability.
PDF12October 7, 2025