Iperagenti

Abstract

I sistemi di IA auto-miglioranti mirano a ridurre la dipendenza dall'ingegneria umana imparando a migliorare i propri processi di apprendimento e problem-solving. Gli approcci esistenti all'auto-miglioramento si basano su meccanismi meta-livello fissi e artigianali, limitando fondamentalmente la velocità con cui tali sistemi possono migliorare. La Darwin Gödel Machine (DGM) dimostra un auto-miglioramento aperto nella codifica generando e valutando ripetutamente varianti auto-modificate. Poiché sia la valutazione che l'auto-modifica sono compiti di codifica, i progressi nelle capacità di codifica possono tradursi in progressi nella capacità di auto-miglioramento. Tuttavia, questo allineamento generalmente non vale al di fuori dei domini di codifica. Introduciamo gli iperagenti, agenti autoreferenziali che integrano un agente compito (che risolve il compito target) e un meta-agente (che modifica sé stesso e l'agente compito) in un unico programma modificabile. Fondamentalmente, la procedura di modifica a meta-livello è essa stessa modificabile, consentendo l'auto-modifica metacognitiva, migliorando non solo il comportamento di risoluzione dei compiti, ma anche il meccanismo che genera i miglioramenti futuri. Istanziamo questo framework estendendo la DGM per creare DGM-Hyperagents (DGM-H), eliminando l'assunzione di un allineamento dominio-specifico tra prestazione del compito e abilità di auto-modifica per supportare potenzialmente progressi auto-acceleranti su qualsiasi compito computabile. In vari domini, il DGM-H migliora le prestazioni nel tempo e supera i baseline senza auto-miglioramento o esplorazione aperta, così come i precedenti sistemi auto-miglioranti. Inoltre, il DGM-H migliora il processo con cui genera nuovi agenti (ad esempio, memoria persistente, monitoraggio delle prestazioni), e questi miglioramenti a meta-livello si trasferiscono tra domini e si accumulano tra le esecuzioni. Gli DGM-Hyperagents offrono uno sguardo su sistemi di IA aperti che non si limitano a cercare soluzioni migliori, ma migliorano continuamente la loro ricerca su come migliorare.

English

Self-improving AI systems aim to reduce reliance on human engineering by learning to improve their own learning and problem-solving processes. Existing approaches to self-improvement rely on fixed, handcrafted meta-level mechanisms, fundamentally limiting how fast such systems can improve. The Darwin Gödel Machine (DGM) demonstrates open-ended self-improvement in coding by repeatedly generating and evaluating self-modified variants. Because both evaluation and self-modification are coding tasks, gains in coding ability can translate into gains in self-improvement ability. However, this alignment does not generally hold beyond coding domains. We introduce hyperagents, self-referential agents that integrate a task agent (which solves the target task) and a meta agent (which modifies itself and the task agent) into a single editable program. Crucially, the meta-level modification procedure is itself editable, enabling metacognitive self-modification, improving not only the task-solving behavior, but also the mechanism that generates future improvements. We instantiate this framework by extending DGM to create DGM-Hyperagents (DGM-H), eliminating the assumption of domain-specific alignment between task performance and self-modification skill to potentially support self-accelerating progress on any computable task. Across diverse domains, the DGM-H improves performance over time and outperforms baselines without self-improvement or open-ended exploration, as well as prior self-improving systems. Furthermore, the DGM-H improves the process by which it generates new agents (e.g., persistent memory, performance tracking), and these meta-level improvements transfer across domains and accumulate across runs. DGM-Hyperagents offer a glimpse of open-ended AI systems that do not merely search for better solutions, but continually improve their search for how to improve.