Modelli Fondamentali Composizionali per la Pianificazione Gerarchica

Abstract

Per prendere decisioni efficaci in ambienti nuovi con obiettivi a lungo termine, è cruciale impegnarsi in un ragionamento gerarchico attraverso scale spaziali e temporali. Ciò implica pianificare sequenze di sottobiettivi astratti, ragionare visivamente sui piani sottostanti ed eseguire azioni in conformità con il piano elaborato attraverso il controllo visuo-motorio. Proponiamo Compositional Foundation Models for Hierarchical Planning (HiP), un modello di base che sfrutta più modelli di base esperti, addestrati individualmente su dati linguistici, visivi e di azione, per risolvere congiuntamente compiti a lungo termine. Utilizziamo un modello linguistico di grandi dimensioni per costruire piani simbolici che sono radicati nell'ambiente attraverso un modello di diffusione video di grandi dimensioni. I piani video generati vengono poi ancorati al controllo visuo-motorio, attraverso un modello di dinamica inversa che inferisce le azioni dai video generati. Per abilitare un ragionamento efficace all'interno di questa gerarchia, imponiamo la coerenza tra i modelli tramite un affinamento iterativo. Illustriamo l'efficacia e l'adattabilità del nostro approccio in tre diversi compiti di manipolazione su tavolo a lungo termine.

English

To make effective decisions in novel environments with long-horizon goals, it is crucial to engage in hierarchical reasoning across spatial and temporal scales. This entails planning abstract subgoal sequences, visually reasoning about the underlying plans, and executing actions in accordance with the devised plan through visual-motor control. We propose Compositional Foundation Models for Hierarchical Planning (HiP), a foundation model which leverages multiple expert foundation model trained on language, vision and action data individually jointly together to solve long-horizon tasks. We use a large language model to construct symbolic plans that are grounded in the environment through a large video diffusion model. Generated video plans are then grounded to visual-motor control, through an inverse dynamics model that infers actions from generated videos. To enable effective reasoning within this hierarchy, we enforce consistency between the models via iterative refinement. We illustrate the efficacy and adaptability of our approach in three different long-horizon table-top manipulation tasks.