Hiperagentes

Resumen

Los sistemas de IA de auto-mejora buscan reducir la dependencia de la ingeniería humana aprendiendo a mejorar sus propios procesos de aprendizaje y resolución de problemas. Los enfoques existentes para la auto-mejora dependen de mecanismos meta-nivel fijos y diseñados manualmente, lo que limita fundamentalmente la rapidez con la que pueden mejorar dichos sistemas. La Máquina de Gödel Darwin (DGM) demuestra una auto-mejora de código abierto en programación al generar y evaluar repetidamente variantes auto-modificadas. Dado que tanto la evaluación como la auto-modificación son tareas de programación, las ganancias en capacidad de programación pueden traducirse en ganancias en la capacidad de auto-mejora. Sin embargo, esta alineación generalmente no se mantiene más allá de los dominios de programación. Introducimos los hiperagentes, agentes autorreferenciales que integran un agente de tarea (que resuelve la tarea objetivo) y un agente meta (que se modifica a sí mismo y al agente de tarea) en un único programa editable. Crucialmente, el procedimiento de modificación a nivel meta es en sí mismo editable, permitiendo la auto-modificación metacognitiva, mejorando no solo el comportamiento de resolución de tareas, sino también el mecanismo que genera futuras mejoras. Instanciamos este marco extendiendo la DGM para crear DGM-Hiperagentes (DGM-H), eliminando el supuesto de alineación específica del dominio entre el rendimiento en la tarea y la habilidad de auto-modificación para potencialmente apoyar un progreso auto-acelerado en cualquier tarea computable. En diversos dominios, el DGM-H mejora su rendimiento con el tiempo y supera a los sistemas de referencia sin auto-mejora o exploración de código abierto, así como a sistemas previos de auto-mejora. Además, el DGM-H mejora el proceso mediante el cual genera nuevos agentes (por ejemplo, memoria persistente, seguimiento del rendimiento), y estas mejoras a nivel meta se transfieren entre dominios y se acumulan a lo largo de las ejecuciones. Los DGM-Hiperagentes ofrecen un atisbo de sistemas de IA de código abierto que no solo buscan mejores soluciones, sino que mejoran continuamente su búsqueda de cómo mejorar.

English

Self-improving AI systems aim to reduce reliance on human engineering by learning to improve their own learning and problem-solving processes. Existing approaches to self-improvement rely on fixed, handcrafted meta-level mechanisms, fundamentally limiting how fast such systems can improve. The Darwin Gödel Machine (DGM) demonstrates open-ended self-improvement in coding by repeatedly generating and evaluating self-modified variants. Because both evaluation and self-modification are coding tasks, gains in coding ability can translate into gains in self-improvement ability. However, this alignment does not generally hold beyond coding domains. We introduce hyperagents, self-referential agents that integrate a task agent (which solves the target task) and a meta agent (which modifies itself and the task agent) into a single editable program. Crucially, the meta-level modification procedure is itself editable, enabling metacognitive self-modification, improving not only the task-solving behavior, but also the mechanism that generates future improvements. We instantiate this framework by extending DGM to create DGM-Hyperagents (DGM-H), eliminating the assumption of domain-specific alignment between task performance and self-modification skill to potentially support self-accelerating progress on any computable task. Across diverse domains, the DGM-H improves performance over time and outperforms baselines without self-improvement or open-ended exploration, as well as prior self-improving systems. Furthermore, the DGM-H improves the process by which it generates new agents (e.g., persistent memory, performance tracking), and these meta-level improvements transfer across domains and accumulate across runs. DGM-Hyperagents offer a glimpse of open-ended AI systems that do not merely search for better solutions, but continually improve their search for how to improve.