Pianificazione Linguistica per Video
Video Language Planning
October 16, 2023
Autori: Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid, Brian Ichter, Pierre Sermanet, Tianhe Yu, Pieter Abbeel, Joshua B. Tenenbaum, Leslie Kaelbling, Andy Zeng, Jonathan Tompson
cs.AI
Abstract
Siamo interessati a abilitare la pianificazione visiva per compiti complessi a lungo termine nello spazio di video e linguaggio generati, sfruttando i recenti progressi nei modelli generativi su larga scala pre-addestrati su dati di livello Internet. A tal fine, presentiamo la pianificazione video-linguaggio (VLP), un algoritmo che consiste in una procedura di ricerca ad albero, in cui addestriamo (i) modelli visione-linguaggio per fungere sia da politiche che da funzioni di valore, e (ii) modelli testo-video come modelli dinamici. VLP prende in input un'istruzione per un compito a lungo termine e un'osservazione immagine corrente, e restituisce un piano video dettagliato che fornisce specifiche multimodali (video e linguaggio) che descrivono come completare il compito finale. VLP scala con l'aumento del budget computazionale, dove più tempo di calcolo si traduce in piani video migliorati, ed è in grado di sintetizzare piani video a lungo termine in diversi domini robotici: dal riordinamento di più oggetti, alla manipolazione abile con due bracci e più telecamere. I piani video generati possono essere tradotti in azioni reali del robot tramite politiche condizionate all'obiettivo, condizionate su ciascun fotogramma intermedio del video generato. Gli esperimenti mostrano che VLP migliora sostanzialmente i tassi di successo dei compiti a lungo termine rispetto ai metodi precedenti, sia su robot simulati che reali (attraverso 3 piattaforme hardware).
English
We are interested in enabling visual planning for complex long-horizon tasks
in the space of generated videos and language, leveraging recent advances in
large generative models pretrained on Internet-scale data. To this end, we
present video language planning (VLP), an algorithm that consists of a tree
search procedure, where we train (i) vision-language models to serve as both
policies and value functions, and (ii) text-to-video models as dynamics models.
VLP takes as input a long-horizon task instruction and current image
observation, and outputs a long video plan that provides detailed multimodal
(video and language) specifications that describe how to complete the final
task. VLP scales with increasing computation budget where more computation time
results in improved video plans, and is able to synthesize long-horizon video
plans across different robotics domains: from multi-object rearrangement, to
multi-camera bi-arm dexterous manipulation. Generated video plans can be
translated into real robot actions via goal-conditioned policies, conditioned
on each intermediate frame of the generated video. Experiments show that VLP
substantially improves long-horizon task success rates compared to prior
methods on both simulated and real robots (across 3 hardware platforms).