Auf dem Weg zu einem einheitlichen Agenten mit Fundamentmodellen
Towards A Unified Agent with Foundation Models
July 18, 2023
Autoren: Norman Di Palo, Arunkumar Byravan, Leonard Hasenclever, Markus Wulfmeier, Nicolas Heess, Martin Riedmiller
cs.AI
Zusammenfassung
Sprachmodelle und Vision-Language-Modelle haben in letzter Zeit beispiellose Fähigkeiten in Bezug auf das Verständnis menschlicher Absichten, logisches Denken, Szenenverständnis und planungsähnliches Verhalten in Textform sowie in vielen anderen Bereichen gezeigt. In dieser Arbeit untersuchen wir, wie solche Fähigkeiten in Reinforcement-Learning-(RL)-Agenten eingebettet und genutzt werden können. Wir entwerfen ein Framework, das Sprache als zentrales Werkzeug für das logische Denken verwendet, und erforschen, wie dies einem Agenten ermöglicht, eine Reihe grundlegender RL-Herausforderungen zu bewältigen, wie effiziente Exploration, Wiederverwendung von Erfahrungsdaten, Planung von Fähigkeiten und Lernen aus Beobachtungen, die traditionell separate, vertikal entwickelte Algorithmen erfordern. Wir testen unsere Methode in einer simulierten Roboter-Manipulationsumgebung mit spärlicher Belohnung, in der ein Roboter eine Reihe von Objekten stapeln muss. Wir zeigen erhebliche Leistungsverbesserungen gegenüber Baseline-Methoden in Bezug auf die Explorationseffizienz und die Fähigkeit, Daten aus Offline-Datensätzen wiederzuverwenden, und veranschaulichen, wie gelernte Fähigkeiten genutzt werden können, um neue Aufgaben zu lösen oder Videos von menschlichen Experten zu imitieren.
English
Language Models and Vision Language Models have recently demonstrated
unprecedented capabilities in terms of understanding human intentions,
reasoning, scene understanding, and planning-like behaviour, in text form,
among many others. In this work, we investigate how to embed and leverage such
abilities in Reinforcement Learning (RL) agents. We design a framework that
uses language as the core reasoning tool, exploring how this enables an agent
to tackle a series of fundamental RL challenges, such as efficient exploration,
reusing experience data, scheduling skills, and learning from observations,
which traditionally require separate, vertically designed algorithms. We test
our method on a sparse-reward simulated robotic manipulation environment, where
a robot needs to stack a set of objects. We demonstrate substantial performance
improvements over baselines in exploration efficiency and ability to reuse data
from offline datasets, and illustrate how to reuse learned skills to solve
novel tasks or imitate videos of human experts.