ChatPaper.aiChatPaper

人工世代知能:強化学習における文化的蓄積

Artificial Generational Intelligence: Cultural Accumulation in Reinforcement Learning

June 1, 2024
著者: Jonathan Cook, Chris Lu, Edward Hughes, Joel Z. Leibo, Jakob Foerster
cs.AI

要旨

文化的蓄積は、人類の歴史にわたる能力の無限かつ多様な進歩を駆動してきた。それは、個人の探求と世代間の情報伝達を組み合わせることで、知識とスキルの体系を拡大させていく。人間の間では広く成功を収めているにもかかわらず、人工学習エージェントが文化を蓄積する能力については、まだ十分に探求されていない。特に、強化学習のアプローチは通常、単一の生涯における改善を目指すものである。既存の世代アルゴリズムは、文化の蓄積が持つ無限の可能性や創発的な性質を捉えることに失敗しており、個人が革新と模倣のトレードオフを行うことを可能にする特性を再現できていない。強化学習エージェントが社会的学習を行う能力が以前に実証されたことを踏まえ、我々は、独立した学習と社会的学習のバランスを取る訓練設定が文化的蓄積を生み出すことを発見した。これらの蓄積を行うエージェントは、同じ累積経験を持つ単一の生涯で訓練されたエージェントを凌駕する。我々は、2つの異なる世代の概念に基づいて2つのモデルを構築し、この蓄積を探求した。1つはエピソード的な世代で、文脈内学習を通じて蓄積が行われる。もう1つは訓練時の世代で、重み内学習を通じて蓄積が行われる。文脈内と重み内の文化的蓄積は、それぞれ知識の蓄積とスキルの蓄積に類比的に解釈できる。我々の知る限り、この研究は、強化学習において創発的な文化的蓄積を達成する一般的なモデルを初めて提示したものであり、より無限の可能性を持つ学習システムへの新たな道を開くとともに、人間の文化をモデル化する新たな機会を提供するものである。
English
Cultural accumulation drives the open-ended and diverse progress in capabilities spanning human history. It builds an expanding body of knowledge and skills by combining individual exploration with inter-generational information transmission. Despite its widespread success among humans, the capacity for artificial learning agents to accumulate culture remains under-explored. In particular, approaches to reinforcement learning typically strive for improvements over only a single lifetime. Generational algorithms that do exist fail to capture the open-ended, emergent nature of cultural accumulation, which allows individuals to trade-off innovation and imitation. Building on the previously demonstrated ability for reinforcement learning agents to perform social learning, we find that training setups which balance this with independent learning give rise to cultural accumulation. These accumulating agents outperform those trained for a single lifetime with the same cumulative experience. We explore this accumulation by constructing two models under two distinct notions of a generation: episodic generations, in which accumulation occurs via in-context learning and train-time generations, in which accumulation occurs via in-weights learning. In-context and in-weights cultural accumulation can be interpreted as analogous to knowledge and skill accumulation, respectively. To the best of our knowledge, this work is the first to present general models that achieve emergent cultural accumulation in reinforcement learning, opening up new avenues towards more open-ended learning systems, as well as presenting new opportunities for modelling human culture.

Summary

AI-Generated Summary

PDF141December 12, 2024