Гиперагенты

Аннотация

Самоулучшающиеся системы искусственного интеллекта направлены на снижение зависимости от человеческого инжиниринга путем обучения самостоятельному совершенствованию процессов обучения и решения задач. Существующие подходы к самоулучшению опираются на фиксированные, созданные вручную метауровневые механизмы, что принципиально ограничивает скорость улучшения таких систем. Машина Дарвина-Гёделя (DGM) демонстрирует неограниченное самоулучшение в области программирования путем многократного генерирования и оценки самоизменяющихся вариантов. Поскольку и оценка, и самомодификация являются задачами программирования, успехи в способности к программированию могут трансформироваться в улучшение способности к самоулучшению. Однако эта согласованность, как правило, не сохраняется за пределами доменов программирования. Мы представляем гиперагентов — самоссылающихся агентов, которые интегрируют рабочего агента (решающего целевую задачу) и мета-агента (модифицирующего себя и рабочего агента) в единую редактируемую программу. Ключевым моментом является то, что процедура модификации на метауровне сама является редактируемой, что позволяет осуществлять метакогнитивную самомодификацию, улучшая не только поведение при решении задач, но и механизм, генерирующий будущие улучшения. Мы реализуем эту структуру, расширяя DGM для создания DGM-Гиперагентов (DGM-H), устраняя предположение о доменно-специфической согласованности между производительностью задачи и навыком самомодификации, что потенциально может поддерживать самоускоряющийся прогресс в любой вычислимой задаче. В различных доменах DGM-H со временем улучшает производительность и превосходит базовые методы без самоулучшения или неограниченного исследования, а также предыдущие самоулучшающиеся системы. Более того, DGM-H улучшает процесс генерации новых агентов (например, постоянная память, отслеживание производительности), и эти улучшения на метауровне переносятся между доменами и накапливаются в ходе различных запусков. DGM-Гиперагенты предлагают glimpse неограниченных ИИ-систем, которые не просто ищут лучшие решения, но постоянно улучшают свой поиск способов улучшения.

English

Self-improving AI systems aim to reduce reliance on human engineering by learning to improve their own learning and problem-solving processes. Existing approaches to self-improvement rely on fixed, handcrafted meta-level mechanisms, fundamentally limiting how fast such systems can improve. The Darwin Gödel Machine (DGM) demonstrates open-ended self-improvement in coding by repeatedly generating and evaluating self-modified variants. Because both evaluation and self-modification are coding tasks, gains in coding ability can translate into gains in self-improvement ability. However, this alignment does not generally hold beyond coding domains. We introduce hyperagents, self-referential agents that integrate a task agent (which solves the target task) and a meta agent (which modifies itself and the task agent) into a single editable program. Crucially, the meta-level modification procedure is itself editable, enabling metacognitive self-modification, improving not only the task-solving behavior, but also the mechanism that generates future improvements. We instantiate this framework by extending DGM to create DGM-Hyperagents (DGM-H), eliminating the assumption of domain-specific alignment between task performance and self-modification skill to potentially support self-accelerating progress on any computable task. Across diverse domains, the DGM-H improves performance over time and outperforms baselines without self-improvement or open-ended exploration, as well as prior self-improving systems. Furthermore, the DGM-H improves the process by which it generates new agents (e.g., persistent memory, performance tracking), and these meta-level improvements transfer across domains and accumulate across runs. DGM-Hyperagents offer a glimpse of open-ended AI systems that do not merely search for better solutions, but continually improve their search for how to improve.