ChatPaper.aiChatPaper

Vers un agent unifié avec des modèles de base

Towards A Unified Agent with Foundation Models

July 18, 2023
Auteurs: Norman Di Palo, Arunkumar Byravan, Leonard Hasenclever, Markus Wulfmeier, Nicolas Heess, Martin Riedmiller
cs.AI

Résumé

Les modèles de langage et les modèles vision-langage ont récemment démontré des capacités sans précédent en termes de compréhension des intentions humaines, de raisonnement, de compréhension de scènes et de comportements de type planification, entre autres, sous forme textuelle. Dans ce travail, nous explorons comment intégrer et exploiter de telles capacités dans des agents d'apprentissage par renforcement (RL). Nous concevons un cadre qui utilise le langage comme outil central de raisonnement, en examinant comment cela permet à un agent de relever une série de défis fondamentaux en RL, tels que l'exploration efficace, la réutilisation des données d'expérience, la planification des compétences et l'apprentissage à partir d'observations, qui nécessitent traditionnellement des algorithmes distincts et conçus verticalement. Nous testons notre méthode dans un environnement de simulation de manipulation robotique à récompense éparse, où un robot doit empiler un ensemble d'objets. Nous démontrons des améliorations substantielles des performances par rapport aux méthodes de référence en termes d'efficacité d'exploration et de capacité à réutiliser les données provenant de jeux de données hors ligne, et nous illustrons comment réutiliser les compétences apprises pour résoudre de nouvelles tâches ou imiter des vidéos d'experts humains.
English
Language Models and Vision Language Models have recently demonstrated unprecedented capabilities in terms of understanding human intentions, reasoning, scene understanding, and planning-like behaviour, in text form, among many others. In this work, we investigate how to embed and leverage such abilities in Reinforcement Learning (RL) agents. We design a framework that uses language as the core reasoning tool, exploring how this enables an agent to tackle a series of fundamental RL challenges, such as efficient exploration, reusing experience data, scheduling skills, and learning from observations, which traditionally require separate, vertically designed algorithms. We test our method on a sparse-reward simulated robotic manipulation environment, where a robot needs to stack a set of objects. We demonstrate substantial performance improvements over baselines in exploration efficiency and ability to reuse data from offline datasets, and illustrate how to reuse learned skills to solve novel tasks or imitate videos of human experts.
PDF130December 15, 2024