Video-Sprachplanung
Video Language Planning
October 16, 2023
Autoren: Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid, Brian Ichter, Pierre Sermanet, Tianhe Yu, Pieter Abbeel, Joshua B. Tenenbaum, Leslie Kaelbling, Andy Zeng, Jonathan Tompson
cs.AI
Zusammenfassung
Wir sind daran interessiert, visuelle Planung für komplexe Aufgaben mit langem Zeithorizont im Bereich generierter Videos und Sprache zu ermöglichen, indem wir jüngste Fortschritte bei großen generativen Modellen nutzen, die auf Internet-großen Daten vortrainiert wurden. Zu diesem Zweck stellen wir Video Language Planning (VLP) vor, einen Algorithmus, der aus einem Baum-Suchverfahren besteht, bei dem wir (i) Vision-Sprache-Modelle trainieren, die sowohl als Richtlinien als auch als Wertfunktionen dienen, und (ii) Text-zu-Video-Modelle als Dynamikmodelle. VLP nimmt als Eingabe eine langfristige Aufgabenanweisung und die aktuelle Bildbeobachtung und gibt einen langen Video-Plan aus, der detaillierte multimodale (Video und Sprache) Spezifikationen liefert, die beschreiben, wie die endgültige Aufgabe zu erledigen ist. VLP skaliert mit zunehmendem Rechenbudget, wobei mehr Rechenzeit zu verbesserten Video-Plänen führt, und ist in der Lage, langfristige Video-Pläne über verschiedene Robotikdomänen hinweg zu synthetisieren: von der Neuordnung mehrerer Objekte bis zur geschickten Manipulation mit mehreren Kameras und zwei Armen. Generierte Video-Pläne können über zielbedingte Richtlinien in reale Roboteraktionen übersetzt werden, die auf jedem Zwischenbild des generierten Videos basieren. Experimente zeigen, dass VLP die Erfolgsraten bei langfristigen Aufgaben im Vergleich zu früheren Methoden sowohl bei simulierten als auch bei echten Robotern (über 3 Hardware-Plattformen hinweg) erheblich verbessert.
English
We are interested in enabling visual planning for complex long-horizon tasks
in the space of generated videos and language, leveraging recent advances in
large generative models pretrained on Internet-scale data. To this end, we
present video language planning (VLP), an algorithm that consists of a tree
search procedure, where we train (i) vision-language models to serve as both
policies and value functions, and (ii) text-to-video models as dynamics models.
VLP takes as input a long-horizon task instruction and current image
observation, and outputs a long video plan that provides detailed multimodal
(video and language) specifications that describe how to complete the final
task. VLP scales with increasing computation budget where more computation time
results in improved video plans, and is able to synthesize long-horizon video
plans across different robotics domains: from multi-object rearrangement, to
multi-camera bi-arm dexterous manipulation. Generated video plans can be
translated into real robot actions via goal-conditioned policies, conditioned
on each intermediate frame of the generated video. Experiments show that VLP
substantially improves long-horizon task success rates compared to prior
methods on both simulated and real robots (across 3 hardware platforms).