ChatPaper.aiChatPaper

Планирование языка для видео

Video Language Planning

October 16, 2023
Авторы: Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid, Brian Ichter, Pierre Sermanet, Tianhe Yu, Pieter Abbeel, Joshua B. Tenenbaum, Leslie Kaelbling, Andy Zeng, Jonathan Tompson
cs.AI

Аннотация

Мы стремимся обеспечить визуальное планирование для сложных задач с длительным горизонтом в пространстве генерируемых видео и текстов, используя последние достижения в области крупных генеративных моделей, предварительно обученных на данных интернет-масштаба. Для этого мы представляем алгоритм видеоязыкового планирования (Video Language Planning, VLP), который включает процедуру поиска по дереву, где мы обучаем (i) модели "визуальный язык" для выполнения роли как политик, так и функций ценности, и (ii) модели "текст-в-видео" в качестве моделей динамики. VLP принимает на вход инструкцию для задачи с длительным горизонтом и текущее изображение, а на выходе предоставляет длительный видео-план, содержащий детальные мультимодальные (видео и текст) спецификации, описывающие, как выполнить конечную задачу. VLP масштабируется с увеличением вычислительных ресурсов, где большее время вычислений приводит к улучшению видео-планов, и способен синтезировать долгосрочные видео-планы в различных робототехнических областях: от перестановки множества объектов до манипуляций с использованием двух манипуляторов и нескольких камер. Сгенерированные видео-планы могут быть преобразованы в действия реальных роботов с помощью политик, обусловленных целью, где каждая промежуточная кадр генерируемого видео служит условием. Эксперименты показывают, что VLP значительно повышает успешность выполнения задач с длительным горизонтом по сравнению с предыдущими методами как на симуляторах, так и на реальных роботах (на 3 аппаратных платформах).
English
We are interested in enabling visual planning for complex long-horizon tasks in the space of generated videos and language, leveraging recent advances in large generative models pretrained on Internet-scale data. To this end, we present video language planning (VLP), an algorithm that consists of a tree search procedure, where we train (i) vision-language models to serve as both policies and value functions, and (ii) text-to-video models as dynamics models. VLP takes as input a long-horizon task instruction and current image observation, and outputs a long video plan that provides detailed multimodal (video and language) specifications that describe how to complete the final task. VLP scales with increasing computation budget where more computation time results in improved video plans, and is able to synthesize long-horizon video plans across different robotics domains: from multi-object rearrangement, to multi-camera bi-arm dexterous manipulation. Generated video plans can be translated into real robot actions via goal-conditioned policies, conditioned on each intermediate frame of the generated video. Experiments show that VLP substantially improves long-horizon task success rates compared to prior methods on both simulated and real robots (across 3 hardware platforms).
PDF111December 15, 2024