Искусственный Генерационный Интеллект: Культурное Накопление в Обучении с Подкреплением

Аннотация

Культурное накопление способствует разнообразному и неограниченному прогрессу в области возможностей на протяжении всей истории человечества. Оно формирует расширяющееся тело знаний и навыков путем объединения индивидуального исследования с межпоколенческой передачей информации. Несмотря на его широкий успех среди людей, возможность накопления культуры искусственными обучаемыми агентами остается мало исследованной. В частности, подходы к обучению с подкреплением обычно нацелены на улучшения только на протяжении одной жизни. Алгоритмы, основанные на поколениях, которые существуют, не улавливают неограниченного, внезапного характера культурного накопления, который позволяет индивидуумам балансировать между инновациями и имитацией. Основываясь на ранее продемонстрированной способности агентов обучения с подкреплением выполнять социальное обучение, мы обнаружили, что тренировочные сценарии, которые уравновешивают это с независимым обучением, приводят к культурному накоплению. Эти накапливающие агенты превосходят тех, кто обучался только в течение одной жизни с тем же накопленным опытом. Мы исследуем это накопление, создавая две модели на основе двух различных представлений о поколении: эпизодические поколения, в которых накопление происходит через контекстное обучение, и поколения на этапе обучения, в которых накопление происходит через обучение весам. Культурное накопление через контекстное обучение и через обучение весам можно интерпретировать как аналогию к накоплению знаний и навыков соответственно. На наш взгляд, данная работа является первой, представляющей общие модели, достигающие внезапного культурного накопления в обучении с подкреплением, открывая новые возможности для более неограниченных систем обучения, а также предлагая новые возможности для моделирования человеческой культуры.

English

Cultural accumulation drives the open-ended and diverse progress in capabilities spanning human history. It builds an expanding body of knowledge and skills by combining individual exploration with inter-generational information transmission. Despite its widespread success among humans, the capacity for artificial learning agents to accumulate culture remains under-explored. In particular, approaches to reinforcement learning typically strive for improvements over only a single lifetime. Generational algorithms that do exist fail to capture the open-ended, emergent nature of cultural accumulation, which allows individuals to trade-off innovation and imitation. Building on the previously demonstrated ability for reinforcement learning agents to perform social learning, we find that training setups which balance this with independent learning give rise to cultural accumulation. These accumulating agents outperform those trained for a single lifetime with the same cumulative experience. We explore this accumulation by constructing two models under two distinct notions of a generation: episodic generations, in which accumulation occurs via in-context learning and train-time generations, in which accumulation occurs via in-weights learning. In-context and in-weights cultural accumulation can be interpreted as analogous to knowledge and skill accumulation, respectively. To the best of our knowledge, this work is the first to present general models that achieve emergent cultural accumulation in reinforcement learning, opening up new avenues towards more open-ended learning systems, as well as presenting new opportunities for modelling human culture.

Искусственный Генерационный Интеллект: Культурное Накопление в Обучении с Подкреплением

Artificial Generational Intelligence: Cultural Accumulation in Reinforcement Learning

Аннотация

Support