ChatPaper.aiChatPaper

Video Taalplanning

Video Language Planning

October 16, 2023
Auteurs: Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid, Brian Ichter, Pierre Sermanet, Tianhe Yu, Pieter Abbeel, Joshua B. Tenenbaum, Leslie Kaelbling, Andy Zeng, Jonathan Tompson
cs.AI

Samenvatting

We zijn geïnteresseerd in het mogelijk maken van visuele planning voor complexe taken met een lange tijdsduur in de ruimte van gegenereerde video's en taal, waarbij we gebruikmaken van recente vooruitgang in grote generatieve modellen die zijn voorgetraind op internet-schaal data. Hiertoe presenteren we video language planning (VLP), een algoritme dat bestaat uit een boomzoekprocedure, waarbij we (i) vision-language modellen trainen om te dienen als zowel beleids- als waardefuncties, en (ii) text-to-video modellen als dynamiekmodellen. VLP neemt als invoer een taakinstructie met een lange tijdsduur en een huidige beeldobservatie, en produceert een lange videoplan die gedetailleerde multimodale (video en taal) specificaties biedt die beschrijven hoe de uiteindelijke taak kan worden voltooid. VLP schaalt met een toenemend rekenbudget, waarbij meer rekentijd resulteert in verbeterde videoplannen, en is in staat om videoplannen met een lange tijdsduur te synthetiseren in verschillende robotica-domeinen: van multi-object herschikking tot multi-camera bi-arm behendige manipulatie. Gegenereerde videoplannen kunnen worden vertaald naar echte robotacties via doel-gerichte beleidsfuncties, geconditioneerd op elk tussenliggend frame van de gegenereerde video. Experimenten tonen aan dat VLP de slagingspercentages van taken met een lange tijdsduur aanzienlijk verbetert in vergelijking met eerdere methoden, zowel op gesimuleerde als echte robots (over 3 hardwareplatforms).
English
We are interested in enabling visual planning for complex long-horizon tasks in the space of generated videos and language, leveraging recent advances in large generative models pretrained on Internet-scale data. To this end, we present video language planning (VLP), an algorithm that consists of a tree search procedure, where we train (i) vision-language models to serve as both policies and value functions, and (ii) text-to-video models as dynamics models. VLP takes as input a long-horizon task instruction and current image observation, and outputs a long video plan that provides detailed multimodal (video and language) specifications that describe how to complete the final task. VLP scales with increasing computation budget where more computation time results in improved video plans, and is able to synthesize long-horizon video plans across different robotics domains: from multi-object rearrangement, to multi-camera bi-arm dexterous manipulation. Generated video plans can be translated into real robot actions via goal-conditioned policies, conditioned on each intermediate frame of the generated video. Experiments show that VLP substantially improves long-horizon task success rates compared to prior methods on both simulated and real robots (across 3 hardware platforms).
PDF111December 14, 2025