Auf dem Weg zu einem einheitlichen Agenten mit Fundamentmodellen

Zusammenfassung

Sprachmodelle und Vision-Language-Modelle haben in letzter Zeit beispiellose Fähigkeiten in Bezug auf das Verständnis menschlicher Absichten, logisches Denken, Szenenverständnis und planungsähnliches Verhalten in Textform sowie in vielen anderen Bereichen gezeigt. In dieser Arbeit untersuchen wir, wie solche Fähigkeiten in Reinforcement-Learning-(RL)-Agenten eingebettet und genutzt werden können. Wir entwerfen ein Framework, das Sprache als zentrales Werkzeug für das logische Denken verwendet, und erforschen, wie dies einem Agenten ermöglicht, eine Reihe grundlegender RL-Herausforderungen zu bewältigen, wie effiziente Exploration, Wiederverwendung von Erfahrungsdaten, Planung von Fähigkeiten und Lernen aus Beobachtungen, die traditionell separate, vertikal entwickelte Algorithmen erfordern. Wir testen unsere Methode in einer simulierten Roboter-Manipulationsumgebung mit spärlicher Belohnung, in der ein Roboter eine Reihe von Objekten stapeln muss. Wir zeigen erhebliche Leistungsverbesserungen gegenüber Baseline-Methoden in Bezug auf die Explorationseffizienz und die Fähigkeit, Daten aus Offline-Datensätzen wiederzuverwenden, und veranschaulichen, wie gelernte Fähigkeiten genutzt werden können, um neue Aufgaben zu lösen oder Videos von menschlichen Experten zu imitieren.

English

Language Models and Vision Language Models have recently demonstrated unprecedented capabilities in terms of understanding human intentions, reasoning, scene understanding, and planning-like behaviour, in text form, among many others. In this work, we investigate how to embed and leverage such abilities in Reinforcement Learning (RL) agents. We design a framework that uses language as the core reasoning tool, exploring how this enables an agent to tackle a series of fundamental RL challenges, such as efficient exploration, reusing experience data, scheduling skills, and learning from observations, which traditionally require separate, vertically designed algorithms. We test our method on a sparse-reward simulated robotic manipulation environment, where a robot needs to stack a set of objects. We demonstrate substantial performance improvements over baselines in exploration efficiency and ability to reuse data from offline datasets, and illustrate how to reuse learned skills to solve novel tasks or imitate videos of human experts.

Auf dem Weg zu einem einheitlichen Agenten mit Fundamentmodellen

Towards A Unified Agent with Foundation Models

Zusammenfassung

Support