ChatPaper.aiChatPaper

Planejamento de Linguagem em Vídeo

Video Language Planning

October 16, 2023
Autores: Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid, Brian Ichter, Pierre Sermanet, Tianhe Yu, Pieter Abbeel, Joshua B. Tenenbaum, Leslie Kaelbling, Andy Zeng, Jonathan Tompson
cs.AI

Resumo

Estamos interessados em habilitar o planejamento visual para tarefas complexas de longo horizonte no espaço de vídeos e linguagem gerados, aproveitando os avanços recentes em grandes modelos generativos pré-treinados com dados em escala da Internet. Para isso, apresentamos o planejamento de vídeo e linguagem (VLP, do inglês Video Language Planning), um algoritmo que consiste em um procedimento de busca em árvore, onde treinamos (i) modelos de visão e linguagem para atuarem tanto como políticas quanto como funções de valor, e (ii) modelos de texto para vídeo como modelos de dinâmica. O VLP recebe como entrada uma instrução de tarefa de longo horizonte e uma observação de imagem atual, e produz um plano de vídeo longo que fornece especificações multimodais detalhadas (vídeo e linguagem) que descrevem como concluir a tarefa final. O VLP escala com o aumento do orçamento computacional, onde mais tempo de computação resulta em planos de vídeo aprimorados, e é capaz de sintetizar planos de vídeo de longo horizonte em diferentes domínios de robótica: desde o rearranjo de múltiplos objetos até a manipulação destra bi-braço com múltiplas câmeras. Os planos de vídeo gerados podem ser traduzidos em ações reais de robôs por meio de políticas condicionadas a objetivos, condicionadas a cada quadro intermediário do vídeo gerado. Experimentos mostram que o VLP melhora substancialmente as taxas de sucesso de tarefas de longo horizonte em comparação com métodos anteriores, tanto em robôs simulados quanto reais (em 3 plataformas de hardware).
English
We are interested in enabling visual planning for complex long-horizon tasks in the space of generated videos and language, leveraging recent advances in large generative models pretrained on Internet-scale data. To this end, we present video language planning (VLP), an algorithm that consists of a tree search procedure, where we train (i) vision-language models to serve as both policies and value functions, and (ii) text-to-video models as dynamics models. VLP takes as input a long-horizon task instruction and current image observation, and outputs a long video plan that provides detailed multimodal (video and language) specifications that describe how to complete the final task. VLP scales with increasing computation budget where more computation time results in improved video plans, and is able to synthesize long-horizon video plans across different robotics domains: from multi-object rearrangement, to multi-camera bi-arm dexterous manipulation. Generated video plans can be translated into real robot actions via goal-conditioned policies, conditioned on each intermediate frame of the generated video. Experiments show that VLP substantially improves long-horizon task success rates compared to prior methods on both simulated and real robots (across 3 hardware platforms).
PDF111December 14, 2025