ChatPaper.aiChatPaper

Kompositionale Foundation-Modelle für hierarchische Planung

Compositional Foundation Models for Hierarchical Planning

September 15, 2023
Autoren: Anurag Ajay, Seungwook Han, Yilun Du, Shaung Li, Abhi Gupta, Tommi Jaakkola, Josh Tenenbaum, Leslie Kaelbling, Akash Srivastava, Pulkit Agrawal
cs.AI

Zusammenfassung

Um effektive Entscheidungen in neuartigen Umgebungen mit langfristigen Zielen zu treffen, ist es entscheidend, hierarchisches Denken über räumliche und zeitliche Skalen hinweg anzuwenden. Dies beinhaltet die Planung abstrakter Teilzielsequenzen, die visuelle Analyse der zugrunde liegenden Pläne und die Ausführung von Aktionen gemäß des entworfenen Plans durch visuomotorische Steuerung. Wir schlagen Compositional Foundation Models for Hierarchical Planning (HiP) vor, ein Foundation-Modell, das mehrere spezialisierte Foundation-Modelle, die jeweils auf Sprach-, Bild- und Aktionsdaten trainiert wurden, gemeinsam nutzt, um langfristige Aufgaben zu lösen. Wir verwenden ein großes Sprachmodell, um symbolische Pläne zu erstellen, die durch ein großes Video-Diffusionsmodell in der Umgebung verankert werden. Die generierten Video-Pläne werden dann durch ein inverses Dynamikmodell, das Aktionen aus den generierten Videos ableitet, in die visuomotorische Steuerung integriert. Um effektives Denken innerhalb dieser Hierarchie zu ermöglichen, erzwingen wir Konsistenz zwischen den Modellen durch iterative Verfeinerung. Wir demonstrieren die Wirksamkeit und Anpassungsfähigkeit unseres Ansatzes in drei verschiedenen langfristigen Tischmanipulationsaufgaben.
English
To make effective decisions in novel environments with long-horizon goals, it is crucial to engage in hierarchical reasoning across spatial and temporal scales. This entails planning abstract subgoal sequences, visually reasoning about the underlying plans, and executing actions in accordance with the devised plan through visual-motor control. We propose Compositional Foundation Models for Hierarchical Planning (HiP), a foundation model which leverages multiple expert foundation model trained on language, vision and action data individually jointly together to solve long-horizon tasks. We use a large language model to construct symbolic plans that are grounded in the environment through a large video diffusion model. Generated video plans are then grounded to visual-motor control, through an inverse dynamics model that infers actions from generated videos. To enable effective reasoning within this hierarchy, we enforce consistency between the models via iterative refinement. We illustrate the efficacy and adaptability of our approach in three different long-horizon table-top manipulation tasks.
PDF111December 15, 2024