Compositionele Foundation Modellen voor Hiërarchisch Plannen
Compositional Foundation Models for Hierarchical Planning
September 15, 2023
Auteurs: Anurag Ajay, Seungwook Han, Yilun Du, Shaung Li, Abhi Gupta, Tommi Jaakkola, Josh Tenenbaum, Leslie Kaelbling, Akash Srivastava, Pulkit Agrawal
cs.AI
Samenvatting
Om effectieve beslissingen te nemen in nieuwe omgevingen met langetermijndoelen, is het cruciaal om hiërarchisch te redeneren over ruimtelijke en temporele schalen. Dit houdt in het plannen van abstracte subdoelreeksen, visueel redeneren over de onderliggende plannen, en het uitvoeren van acties in overeenstemming met het bedachte plan door middel van visueel-motorische controle. Wij stellen Compositional Foundation Models for Hierarchical Planning (HiP) voor, een foundation model dat gebruikmaakt van meerdere expert foundation models die getraind zijn op taal-, visuele- en actiedata, om gezamenlijk langetermijntaken op te lossen. We gebruiken een groot taalmodel om symbolische plannen te construeren die verankerd zijn in de omgeving via een groot videodiffusiemodel. De gegenereerde videoplannen worden vervolgens verankerd aan visueel-motorische controle, door middel van een invers dynamisch model dat acties afleidt uit gegenereerde video's. Om effectief te kunnen redeneren binnen deze hiërarchie, handhaven we consistentie tussen de modellen via iteratieve verfijning. We demonstreren de effectiviteit en aanpasbaarheid van onze aanpak in drie verschillende langetermijn tafelbladmanipulatietaken.
English
To make effective decisions in novel environments with long-horizon goals, it
is crucial to engage in hierarchical reasoning across spatial and temporal
scales. This entails planning abstract subgoal sequences, visually reasoning
about the underlying plans, and executing actions in accordance with the
devised plan through visual-motor control. We propose Compositional Foundation
Models for Hierarchical Planning (HiP), a foundation model which leverages
multiple expert foundation model trained on language, vision and action data
individually jointly together to solve long-horizon tasks. We use a large
language model to construct symbolic plans that are grounded in the environment
through a large video diffusion model. Generated video plans are then grounded
to visual-motor control, through an inverse dynamics model that infers actions
from generated videos. To enable effective reasoning within this hierarchy, we
enforce consistency between the models via iterative refinement. We illustrate
the efficacy and adaptability of our approach in three different long-horizon
table-top manipulation tasks.