Modelos Fundamentales de Composición para la Planificación Jerárquica
Compositional Foundation Models for Hierarchical Planning
September 15, 2023
Autores: Anurag Ajay, Seungwook Han, Yilun Du, Shaung Li, Abhi Gupta, Tommi Jaakkola, Josh Tenenbaum, Leslie Kaelbling, Akash Srivastava, Pulkit Agrawal
cs.AI
Resumen
Para tomar decisiones efectivas en entornos novedosos con objetivos de largo plazo, es crucial involucrarse en un razonamiento jerárquico a través de escalas espaciales y temporales. Esto implica planificar secuencias abstractas de subobjetivos, razonar visualmente sobre los planes subyacentes y ejecutar acciones de acuerdo con el plan diseñado mediante el control visomotor. Proponemos Modelos Fundamentales de Composición para Planificación Jerárquica (HiP), un modelo fundamental que aprovecha múltiples modelos fundamentales expertos entrenados individualmente en datos de lenguaje, visión y acción, trabajando conjuntamente para resolver tareas de largo plazo. Utilizamos un modelo de lenguaje de gran escala para construir planes simbólicos que se anclan en el entorno a través de un modelo de difusión de video de gran escala. Los planes de video generados se anclan luego al control visomotor mediante un modelo de dinámica inversa que infiere acciones a partir de los videos generados. Para permitir un razonamiento efectivo dentro de esta jerarquía, aplicamos consistencia entre los modelos mediante refinamiento iterativo. Ilustramos la eficacia y adaptabilidad de nuestro enfoque en tres tareas diferentes de manipulación en mesas con objetivos de largo plazo.
English
To make effective decisions in novel environments with long-horizon goals, it
is crucial to engage in hierarchical reasoning across spatial and temporal
scales. This entails planning abstract subgoal sequences, visually reasoning
about the underlying plans, and executing actions in accordance with the
devised plan through visual-motor control. We propose Compositional Foundation
Models for Hierarchical Planning (HiP), a foundation model which leverages
multiple expert foundation model trained on language, vision and action data
individually jointly together to solve long-horizon tasks. We use a large
language model to construct symbolic plans that are grounded in the environment
through a large video diffusion model. Generated video plans are then grounded
to visual-motor control, through an inverse dynamics model that infers actions
from generated videos. To enable effective reasoning within this hierarchy, we
enforce consistency between the models via iterative refinement. We illustrate
the efficacy and adaptability of our approach in three different long-horizon
table-top manipulation tasks.