Modèles de fondation compositionnels pour la planification hiérarchique
Compositional Foundation Models for Hierarchical Planning
September 15, 2023
Auteurs: Anurag Ajay, Seungwook Han, Yilun Du, Shaung Li, Abhi Gupta, Tommi Jaakkola, Josh Tenenbaum, Leslie Kaelbling, Akash Srivastava, Pulkit Agrawal
cs.AI
Résumé
Pour prendre des décisions efficaces dans des environnements nouveaux avec des objectifs à long terme, il est essentiel de s’engager dans un raisonnement hiérarchique à travers des échelles spatiales et temporelles. Cela implique de planifier des séquences de sous-objectifs abstraits, de raisonner visuellement sur les plans sous-jacents, et d’exécuter des actions conformément au plan élaboré grâce à un contrôle visuo-moteur. Nous proposons les **Modèles Fondamentaux Compositionnels pour la Planification Hiérarchique (HiP)**, un modèle fondamental qui exploite plusieurs modèles experts spécialisés, entraînés individuellement sur des données linguistiques, visuelles et d’action, pour résoudre des tâches à long terme. Nous utilisons un grand modèle de langage pour construire des plans symboliques ancrés dans l’environnement grâce à un modèle de diffusion vidéo à grande échelle. Les plans vidéo générés sont ensuite ancrés dans un contrôle visuo-moteur via un modèle de dynamique inverse qui infère les actions à partir des vidéos générées. Pour permettre un raisonnement efficace au sein de cette hiérarchie, nous imposons une cohérence entre les modèles par un raffinement itératif. Nous illustrons l’efficacité et l’adaptabilité de notre approche dans trois tâches de manipulation sur table à long terme.
English
To make effective decisions in novel environments with long-horizon goals, it
is crucial to engage in hierarchical reasoning across spatial and temporal
scales. This entails planning abstract subgoal sequences, visually reasoning
about the underlying plans, and executing actions in accordance with the
devised plan through visual-motor control. We propose Compositional Foundation
Models for Hierarchical Planning (HiP), a foundation model which leverages
multiple expert foundation model trained on language, vision and action data
individually jointly together to solve long-horizon tasks. We use a large
language model to construct symbolic plans that are grounded in the environment
through a large video diffusion model. Generated video plans are then grounded
to visual-motor control, through an inverse dynamics model that infers actions
from generated videos. To enable effective reasoning within this hierarchy, we
enforce consistency between the models via iterative refinement. We illustrate
the efficacy and adaptability of our approach in three different long-horizon
table-top manipulation tasks.