Pangu-Agent: Een Fijnstelbaar Algemeen Agent met Gestructureerd Redeneren
Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning
December 22, 2023
Auteurs: Filippos Christianos, Georgios Papoudakis, Matthieu Zimmer, Thomas Coste, Zhihao Wu, Jingxuan Chen, Khyati Khandelwal, James Doran, Xidong Feng, Jiacheng Liu, Zheng Xiong, Yicheng Luo, Jianye Hao, Kun Shao, Haitham Bou-Ammar, Jun Wang
cs.AI
Samenvatting
Een belangrijke methode voor het creëren van kunstmatige intelligentie (AI)-agenten is Reinforcement Learning (RL). Het construeren van een op zichzelf staand RL-beleid dat perceptie direct naar actie vertaalt, stuit echter op ernstige problemen, waaronder het gebrek aan generaliseerbaarheid over meerdere taken en de behoefte aan een grote hoeveelheid trainingsdata. De belangrijkste oorzaak hiervan is dat het niet effectief prior knowledge kan integreren in de perceptie-actiecyclus bij het ontwerpen van het beleid. Grote taalmodelen (LLMs) zijn naar voren gekomen als een fundamentele manier om domeinoverschrijdende kennis in AI-agenten te integreren, maar missen cruciaal leren en aanpassingsvermogen voor specifieke beslissingsproblemen. Dit artikel presenteert een algemeen kadermodel voor het integreren en leren van gestructureerd redeneren in het beleid van AI-agenten. Onze methodologie is geïnspireerd door de modulariteit van het menselijk brein. Het kader maakt gebruik van de constructie van intrinsieke en extrinsieke functies om eerder begrip van redeneerstructuren toe te voegen. Het biedt ook het adaptieve vermogen om modellen binnen elke module of functie te leren, in overeenstemming met de modulaire structuur van cognitieve processen. We beschrijven het kader in detail en vergelijken het met andere AI-pipelines en bestaande frameworks. Het artikel onderzoekt praktische toepassingen, met experimenten die de effectiviteit van onze methode aantonen. Onze resultaten geven aan dat AI-agenten veel beter presteren en zich aanpassen wanneer gestructureerd redeneren en voorkennis zijn ingebed. Dit opent de deur naar veerkrachtigere en meer algemene AI-agentsystemen.
English
A key method for creating Artificial Intelligence (AI) agents is
Reinforcement Learning (RL). However, constructing a standalone RL policy that
maps perception to action directly encounters severe problems, chief among them
being its lack of generality across multiple tasks and the need for a large
amount of training data. The leading cause is that it cannot effectively
integrate prior information into the perception-action cycle when devising the
policy. Large language models (LLMs) emerged as a fundamental way to
incorporate cross-domain knowledge into AI agents but lack crucial learning and
adaptation toward specific decision problems. This paper presents a general
framework model for integrating and learning structured reasoning into AI
agents' policies. Our methodology is motivated by the modularity found in the
human brain. The framework utilises the construction of intrinsic and extrinsic
functions to add previous understandings of reasoning structures. It also
provides the adaptive ability to learn models inside every module or function,
consistent with the modular structure of cognitive processes. We describe the
framework in-depth and compare it with other AI pipelines and existing
frameworks. The paper explores practical applications, covering experiments
that show the effectiveness of our method. Our results indicate that AI agents
perform and adapt far better when organised reasoning and prior knowledge are
embedded. This opens the door to more resilient and general AI agent systems.