Искусственный Генерационный Интеллект: Культурное Накопление в Обучении с Подкреплением
Artificial Generational Intelligence: Cultural Accumulation in Reinforcement Learning
June 1, 2024
Авторы: Jonathan Cook, Chris Lu, Edward Hughes, Joel Z. Leibo, Jakob Foerster
cs.AI
Аннотация
Культурное накопление способствует разнообразному и неограниченному прогрессу в области возможностей на протяжении всей истории человечества. Оно формирует расширяющееся тело знаний и навыков путем объединения индивидуального исследования с межпоколенческой передачей информации. Несмотря на его широкий успех среди людей, возможность накопления культуры искусственными обучаемыми агентами остается мало исследованной. В частности, подходы к обучению с подкреплением обычно нацелены на улучшения только на протяжении одной жизни. Алгоритмы, основанные на поколениях, которые существуют, не улавливают неограниченного, внезапного характера культурного накопления, который позволяет индивидуумам балансировать между инновациями и имитацией. Основываясь на ранее продемонстрированной способности агентов обучения с подкреплением выполнять социальное обучение, мы обнаружили, что тренировочные сценарии, которые уравновешивают это с независимым обучением, приводят к культурному накоплению. Эти накапливающие агенты превосходят тех, кто обучался только в течение одной жизни с тем же накопленным опытом. Мы исследуем это накопление, создавая две модели на основе двух различных представлений о поколении: эпизодические поколения, в которых накопление происходит через контекстное обучение, и поколения на этапе обучения, в которых накопление происходит через обучение весам. Культурное накопление через контекстное обучение и через обучение весам можно интерпретировать как аналогию к накоплению знаний и навыков соответственно. На наш взгляд, данная работа является первой, представляющей общие модели, достигающие внезапного культурного накопления в обучении с подкреплением, открывая новые возможности для более неограниченных систем обучения, а также предлагая новые возможности для моделирования человеческой культуры.
English
Cultural accumulation drives the open-ended and diverse progress in
capabilities spanning human history. It builds an expanding body of knowledge
and skills by combining individual exploration with inter-generational
information transmission. Despite its widespread success among humans, the
capacity for artificial learning agents to accumulate culture remains
under-explored. In particular, approaches to reinforcement learning typically
strive for improvements over only a single lifetime. Generational algorithms
that do exist fail to capture the open-ended, emergent nature of cultural
accumulation, which allows individuals to trade-off innovation and imitation.
Building on the previously demonstrated ability for reinforcement learning
agents to perform social learning, we find that training setups which balance
this with independent learning give rise to cultural accumulation. These
accumulating agents outperform those trained for a single lifetime with the
same cumulative experience. We explore this accumulation by constructing two
models under two distinct notions of a generation: episodic generations, in
which accumulation occurs via in-context learning and train-time generations,
in which accumulation occurs via in-weights learning. In-context and in-weights
cultural accumulation can be interpreted as analogous to knowledge and skill
accumulation, respectively. To the best of our knowledge, this work is the
first to present general models that achieve emergent cultural accumulation in
reinforcement learning, opening up new avenues towards more open-ended learning
systems, as well as presenting new opportunities for modelling human culture.Summary
AI-Generated Summary