VoxPoser: Композируемые 3D-карты ценностей для манипуляций роботов с использованием языковых моделей
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models
July 12, 2023
Авторы: Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li, Jiajun Wu, Li Fei-Fei
cs.AI
Аннотация
Крупные языковые модели (LLMs) демонстрируют наличие значительного объема практических знаний, которые могут быть извлечены для управления роботами в форме рассуждений и планирования. Несмотря на прогресс, большинство подходов по-прежнему полагаются на предопределенные примитивы движения для выполнения физического взаимодействия с окружающей средой, что остается основным ограничением. В данной работе мы стремимся синтезировать траектории робота, то есть плотную последовательность 6-DoF (шести степеней свободы) контрольных точек манипулятора, для широкого спектра задач манипуляции, заданных открытым набором инструкций и объектов. Мы достигаем этого, сначала отмечая, что LLMs превосходно справляются с выводом аффордансов и ограничений на основе свободной текстовой инструкции. Более того, используя их способность генерировать код, они могут взаимодействовать с визуально-языковой моделью (VLM) для создания 3D карт ценности, чтобы закрепить знания в пространстве наблюдений агента. Созданные карты ценности затем используются в рамках моделируемого планирования для синтеза замкнутых траекторий робота с нуля, обеспечивая устойчивость к динамическим возмущениям. Мы также демонстрируем, как предложенная система может извлекать пользу из онлайн-опыта, эффективно обучая модель динамики для сцен, включающих интенсивные контактные взаимодействия. Мы представляем масштабное исследование предложенного метода как в симулированных, так и в реальных роботизированных средах, демонстрируя способность выполнять широкий спектр повседневных задач манипуляции, заданных в свободной форме на естественном языке. Сайт проекта: https://voxposer.github.io
English
Large language models (LLMs) are shown to possess a wealth of actionable
knowledge that can be extracted for robot manipulation in the form of reasoning
and planning. Despite the progress, most still rely on pre-defined motion
primitives to carry out the physical interactions with the environment, which
remains a major bottleneck. In this work, we aim to synthesize robot
trajectories, i.e., a dense sequence of 6-DoF end-effector waypoints, for a
large variety of manipulation tasks given an open-set of instructions and an
open-set of objects. We achieve this by first observing that LLMs excel at
inferring affordances and constraints given a free-form language instruction.
More importantly, by leveraging their code-writing capabilities, they can
interact with a visual-language model (VLM) to compose 3D value maps to ground
the knowledge into the observation space of the agent. The composed value maps
are then used in a model-based planning framework to zero-shot synthesize
closed-loop robot trajectories with robustness to dynamic perturbations. We
further demonstrate how the proposed framework can benefit from online
experiences by efficiently learning a dynamics model for scenes that involve
contact-rich interactions. We present a large-scale study of the proposed
method in both simulated and real-robot environments, showcasing the ability to
perform a large variety of everyday manipulation tasks specified in free-form
natural language. Project website: https://voxposer.github.io