Modelos de Fundação Composicionais para Planejamento Hierárquico

Resumo

Para tomar decisões eficazes em ambientes novos com objetivos de longo prazo, é crucial engajar-se em raciocínio hierárquico através de escalas espaciais e temporais. Isso envolve planejar sequências abstratas de subobjetivos, raciocinar visualmente sobre os planos subjacentes e executar ações de acordo com o plano elaborado por meio de controle visuomotor. Propomos Modelos de Fundação Composicionais para Planejamento Hierárquico (HiP), um modelo de fundação que aproveita múltiplos modelos de fundação especializados, treinados individualmente em dados de linguagem, visão e ação, trabalhando em conjunto para resolver tarefas de longo prazo. Utilizamos um modelo de linguagem de grande escala para construir planos simbólicos que são ancorados no ambiente por meio de um modelo de difusão de vídeo de grande escala. Os planos de vídeo gerados são então ancorados ao controle visuomotor, por meio de um modelo de dinâmica inversa que infere ações a partir dos vídeos gerados. Para permitir um raciocínio eficaz dentro dessa hierarquia, impomos consistência entre os modelos por meio de refinamento iterativo. Demonstramos a eficácia e adaptabilidade de nossa abordagem em três diferentes tarefas de manipulação em mesa de longo prazo.

English

To make effective decisions in novel environments with long-horizon goals, it is crucial to engage in hierarchical reasoning across spatial and temporal scales. This entails planning abstract subgoal sequences, visually reasoning about the underlying plans, and executing actions in accordance with the devised plan through visual-motor control. We propose Compositional Foundation Models for Hierarchical Planning (HiP), a foundation model which leverages multiple expert foundation model trained on language, vision and action data individually jointly together to solve long-horizon tasks. We use a large language model to construct symbolic plans that are grounded in the environment through a large video diffusion model. Generated video plans are then grounded to visual-motor control, through an inverse dynamics model that infers actions from generated videos. To enable effective reasoning within this hierarchy, we enforce consistency between the models via iterative refinement. We illustrate the efficacy and adaptability of our approach in three different long-horizon table-top manipulation tasks.