Hyperagenten

Zusammenfassung

Selbstverbessernde KI-Systeme zielen darauf ab, die Abhängigkeit von menschlicher Ingenieursarbeit zu verringern, indem sie lernen, ihre eigenen Lern- und Problemlösungsprozesse zu verbessern. Bestehende Ansätze zur Selbstverbesserung basieren auf festen, handgefertigten Meta-Mechanismen, was grundsätzlich begrenzt, wie schnell sich solche Systeme verbessern können. Die Darwin-Gödel-Maschine (DGM) demonstriert endlose Selbstverbesserung im Bereich der Programmierung, indem sie wiederholt selbstmodifizierte Varianten generiert und bewertet. Da sowohl die Bewertung als auch die Selbstmodifikation Programmieraufgaben sind, können Fortschritte in der Programmierfähigkeit in Fortschritte bei der Selbstverbesserungsfähigkeit umgesetzt werden. Diese Übereinstimmung gilt jedoch allgemein nicht über Programmierdomänen hinaus. Wir führen Hyperagents ein, selbstreferentielle Agenten, die einen Aufgaben-Agenten (der die Zielaufgabe löst) und einen Meta-Agenten (der sich selbst und den Aufgaben-Agenten modifiziert) in ein einziges editierbares Programm integrieren. Entscheidend ist, dass die Meta-Ebenen-Modifikationsprozedur selbst editierbar ist, was metakognitive Selbstmodifikation ermöglicht und nicht nur das aufgabenlösende Verhalten, sondern auch den Mechanismus verbessert, der zukünftige Verbesserungen generiert. Wir instanziieren diesen Rahmen, indem wir die DGM erweitern, um DGM-Hyperagents (DGM-H) zu schaffen, und dabei die Annahme einer domänenspezifischen Übereinstimmung zwischen Aufgabenleistung und Selbstmodifikationsfähigkeit eliminieren, um potenziell selbstbeschleunigende Fortschritte bei beliebigen berechenbaren Aufgaben zu unterstützen. In verschiedenen Domänen verbessert die DGM-H ihre Leistung über die Zeit und übertrifft Baseline-Systeme ohne Selbstverbesserung oder endlose Exploration sowie frühere selbstverbessernde Systeme. Darüber hinaus verbessert die DGM-H den Prozess, durch den sie neue Agenten generiert (z.B. persistenter Speicher, Leistungsverfolgung), und diese Meta-Ebenen-Verbesserungen übertragen sich domänenübergreifend und akkumulieren über mehrere Durchläufe. DGM-Hyperagents bieten einen Ausblick auf endlose KI-Systeme, die nicht nur nach besseren Lösungen suchen, sondern kontinuierlich ihre Suche danach verbessern, wie sie sich verbessern können.

English

Self-improving AI systems aim to reduce reliance on human engineering by learning to improve their own learning and problem-solving processes. Existing approaches to self-improvement rely on fixed, handcrafted meta-level mechanisms, fundamentally limiting how fast such systems can improve. The Darwin Gödel Machine (DGM) demonstrates open-ended self-improvement in coding by repeatedly generating and evaluating self-modified variants. Because both evaluation and self-modification are coding tasks, gains in coding ability can translate into gains in self-improvement ability. However, this alignment does not generally hold beyond coding domains. We introduce hyperagents, self-referential agents that integrate a task agent (which solves the target task) and a meta agent (which modifies itself and the task agent) into a single editable program. Crucially, the meta-level modification procedure is itself editable, enabling metacognitive self-modification, improving not only the task-solving behavior, but also the mechanism that generates future improvements. We instantiate this framework by extending DGM to create DGM-Hyperagents (DGM-H), eliminating the assumption of domain-specific alignment between task performance and self-modification skill to potentially support self-accelerating progress on any computable task. Across diverse domains, the DGM-H improves performance over time and outperforms baselines without self-improvement or open-ended exploration, as well as prior self-improving systems. Furthermore, the DGM-H improves the process by which it generates new agents (e.g., persistent memory, performance tracking), and these meta-level improvements transfer across domains and accumulate across runs. DGM-Hyperagents offer a glimpse of open-ended AI systems that do not merely search for better solutions, but continually improve their search for how to improve.