Isto e Aquilo: Geração de Vídeo Controlada por Linguagem e Gestos para Planeamento de Robôs
This&That: Language-Gesture Controlled Video Generation for Robot Planning
July 8, 2024
Autores: Boyang Wang, Nikhil Sridhar, Chao Feng, Mark Van der Merwe, Adam Fishman, Nima Fazeli, Jeong Joon Park
cs.AI
Resumo
Propomos um método de aprendizado de robôs para comunicação, planejamento e execução de uma ampla gama de tarefas, chamado This&That. Alcançamos o planejamento de robôs para tarefas gerais aproveitando o poder de modelos generativos de vídeo treinados em dados em escala da internet contendo um contexto físico e semântico rico. Neste trabalho, abordamos três desafios fundamentais no planejamento baseado em vídeo: 1) comunicação de tarefas inequívoca com instruções simples para humanos, 2) geração de vídeo controlável que respeita as intenções do usuário e 3) tradução de planejamento visual em ações de robô. Propomos a condicionamento de linguagem e gestos para gerar vídeos, o que é mais simples e claro do que os métodos existentes baseados apenas em linguagem, especialmente em ambientes complexos e incertos. Em seguida, sugerimos um design de clonagem comportamental que incorpora perfeitamente os planos de vídeo. This&That demonstra eficácia de ponta ao abordar os três desafios mencionados e justifica o uso de geração de vídeo como uma representação intermediária para planejamento e execução de tarefas generalizáveis. Website do projeto: https://cfeng16.github.io/this-and-that/.
English
We propose a robot learning method for communicating, planning, and executing
a wide range of tasks, dubbed This&That. We achieve robot planning for general
tasks by leveraging the power of video generative models trained on
internet-scale data containing rich physical and semantic context. In this
work, we tackle three fundamental challenges in video-based planning: 1)
unambiguous task communication with simple human instructions, 2) controllable
video generation that respects user intents, and 3) translating visual planning
into robot actions. We propose language-gesture conditioning to generate
videos, which is both simpler and clearer than existing language-only methods,
especially in complex and uncertain environments. We then suggest a behavioral
cloning design that seamlessly incorporates the video plans. This&That
demonstrates state-of-the-art effectiveness in addressing the above three
challenges, and justifies the use of video generation as an intermediate
representation for generalizable task planning and execution. Project website:
https://cfeng16.github.io/this-and-that/.