Compositionele Foundation Modellen voor Hiërarchisch Plannen

Samenvatting

Om effectieve beslissingen te nemen in nieuwe omgevingen met langetermijndoelen, is het cruciaal om hiërarchisch te redeneren over ruimtelijke en temporele schalen. Dit houdt in het plannen van abstracte subdoelreeksen, visueel redeneren over de onderliggende plannen, en het uitvoeren van acties in overeenstemming met het bedachte plan door middel van visueel-motorische controle. Wij stellen Compositional Foundation Models for Hierarchical Planning (HiP) voor, een foundation model dat gebruikmaakt van meerdere expert foundation models die getraind zijn op taal-, visuele- en actiedata, om gezamenlijk langetermijntaken op te lossen. We gebruiken een groot taalmodel om symbolische plannen te construeren die verankerd zijn in de omgeving via een groot videodiffusiemodel. De gegenereerde videoplannen worden vervolgens verankerd aan visueel-motorische controle, door middel van een invers dynamisch model dat acties afleidt uit gegenereerde video's. Om effectief te kunnen redeneren binnen deze hiërarchie, handhaven we consistentie tussen de modellen via iteratieve verfijning. We demonstreren de effectiviteit en aanpasbaarheid van onze aanpak in drie verschillende langetermijn tafelbladmanipulatietaken.

English

To make effective decisions in novel environments with long-horizon goals, it is crucial to engage in hierarchical reasoning across spatial and temporal scales. This entails planning abstract subgoal sequences, visually reasoning about the underlying plans, and executing actions in accordance with the devised plan through visual-motor control. We propose Compositional Foundation Models for Hierarchical Planning (HiP), a foundation model which leverages multiple expert foundation model trained on language, vision and action data individually jointly together to solve long-horizon tasks. We use a large language model to construct symbolic plans that are grounded in the environment through a large video diffusion model. Generated video plans are then grounded to visual-motor control, through an inverse dynamics model that infers actions from generated videos. To enable effective reasoning within this hierarchy, we enforce consistency between the models via iterative refinement. We illustrate the efficacy and adaptability of our approach in three different long-horizon table-top manipulation tasks.