Композиционные фундаментальные модели для иерархического планирования
Compositional Foundation Models for Hierarchical Planning
September 15, 2023
Авторы: Anurag Ajay, Seungwook Han, Yilun Du, Shaung Li, Abhi Gupta, Tommi Jaakkola, Josh Tenenbaum, Leslie Kaelbling, Akash Srivastava, Pulkit Agrawal
cs.AI
Аннотация
Для принятия эффективных решений в новых средах с долгосрочными целями крайне важно использовать иерархическое рассуждение на пространственных и временных масштабах. Это включает планирование абстрактных последовательностей подцелей, визуальное рассуждение о лежащих в основе планах и выполнение действий в соответствии с разработанным планом через визуально-моторный контроль. Мы предлагаем Композиционные базовые модели для иерархического планирования (HiP) — базовую модель, которая объединяет несколько экспертных базовых моделей, обученных на данных языка, зрения и действий, для решения долгосрочных задач. Мы используем крупную языковую модель для построения символических планов, которые привязаны к среде через модель диффузии видео. Сгенерированные видео-планы затем связываются с визуально-моторным контролем через модель обратной динамики, которая выводит действия из созданных видео. Для обеспечения эффективного рассуждения в рамках этой иерархии мы поддерживаем согласованность между моделями через итеративное уточнение. Мы демонстрируем эффективность и адаптивность нашего подхода на трех различных долгосрочных задачах манипуляции на столе.
English
To make effective decisions in novel environments with long-horizon goals, it
is crucial to engage in hierarchical reasoning across spatial and temporal
scales. This entails planning abstract subgoal sequences, visually reasoning
about the underlying plans, and executing actions in accordance with the
devised plan through visual-motor control. We propose Compositional Foundation
Models for Hierarchical Planning (HiP), a foundation model which leverages
multiple expert foundation model trained on language, vision and action data
individually jointly together to solve long-horizon tasks. We use a large
language model to construct symbolic plans that are grounded in the environment
through a large video diffusion model. Generated video plans are then grounded
to visual-motor control, through an inverse dynamics model that infers actions
from generated videos. To enable effective reasoning within this hierarchy, we
enforce consistency between the models via iterative refinement. We illustrate
the efficacy and adaptability of our approach in three different long-horizon
table-top manipulation tasks.